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编译 程序 (或 编译 器 、 编 译 系统 ) 在 计算 机 科学 与 技术 的 发 展 历史 中 发 挥 了 巨大 作用 ,是 
计算 机 系统 的 核心 支撑 软件 。“ 编 译 原理 ”一 直 以 来 是 国内 外 大 学 计算 机 相关 专业 的 重要 课 
程 ,其 知识 结构 贯穿 程序 设计 语言 .系统 环境 以 及 体系 结构 ,能 以 相对 独立 的 视角 体现 从 软 
件 到 硬件 以 及 软 硬 件 协同 的 整 机 概念 ;同时 ,其 理论 基础 勾 涉及 形式 语言 与 自动 机 、 数 据 结 
构 与 算法 等 计算 机 学 科 的 许多 重要 方面 ,不 愧 为 联系 计算 机 科学 理论 和 计算 机 系统 的 典范 。 
这 一 知识 体系 所 涉及 的 原理 和 技术 不 仅 用 于 编写 编译 程序 ,也 适用 于 很 多 软件 的 设计 。 著 
名 的 计算 机 科学 家 A. V. Aho 和 J. D. Ullman 在 他 们 的 著作 中 说 :“ 在 每 一 个 计算 机 科学 
家 的 研究 生涯 中 ,这 些 原理 和 技术 都 会 反复 用 到 。” 

本 书 介绍 程序 设计 语言 编译 程序 构造 的 一 般 原理 、 基 本 设计 方法 和 主要 实现 技术 ,主要 
面向 计算 机 科学 与 技术 相关 专业 本 科 生 的 专业 学 习 和 素质 培养 ,也 可 供 从 事 系统 软件 和 软 
件 工具 研究 及 开发 的 人 员 参 考 。 

全 书 共 12 童 。 前 面 几 章 中 有 关 词法 分 析 和 语法 分 析 的 部 分 ,基本 上 延续 了 本 书 前 两 个 
版 本 的 风格 和 内 容 , 有 利于 之 前 阅读 和 使 用 过 这 套 教材 的 教师 和 学 生 衔 接 。 新 版 本 重新 组 
织 了 语法 制导 的 方法 .语义 分 析 、. 中 间 代 码 生 成 .运行 时 存储 组 织 .代码 优化 和 目标 代码 生成 
等 相关 内 容 ,进行 了 适当 的 充实 与 删 减 ,力求 在 各 主要 知识 点 之 间 达 到 某 种 较 合理 的 均衡 ， 
使 学 生 在 本 科 层 次 的 学 习 中 尽 可 能 对 编译 程序 的 构造 原理 和 实现 技术 从 整体 知识 层面 上 有 
较 好 的 掌握 。 

对 于 结合 实例 的 讲解 ,本 书 沿用 了 前 两 个 版 本 使 用 的 PL/0 编译 程序 。PL/0 编译 程序 
比较 简单 ,但 不 失 代 表 性 ,在 编译 原理 教学 中 具有 广泛 的 使 用 基础 。 通 常情 况 下 ,学 生 能 够 
在 很 短 的 时 间 内 掌握 PL/0 编译 程序 的 实现 脉络 ,对 于 快速 了 解 一 个 具体 编译 程序 的 作用 
和 设计 思想 有 很 好 的 帮助 。 和 前 面 的 版 本 不 同 ,第 3 版 中 是 将 PL/0 编译 程序 的 介绍 分 散 
于 不 同 章节 中 ,不 同学 校 或 专业 的 课程 可 根据 自身 的 情况 选择 集中 学 习 和 分 阶段 学 习 。 

“编译 原理 "是 一 门 对 实践 性 要 求 较 高 的 课程 ,通常 应 该 设置 专门 的 课程 设计 。 书 中 涉 
及 两 个 小 型 编译 程序 的 设计 实例 ,可 选 作 课程 设计 的 素材 。 一 个 是 PL/0 语言 编译 程序 ,其 
设计 和 实现 框架 贯穿 于 全 书 相 关 章 节 ; 另 一 个 是 简单 面向 对 象 语言 Decaf 的 编译 程序 ,参见 
第 11 章 。 不 同学 校 或 专业 的 课程 可 根据 自身 的 情况 制订 适当 的 课程 设计 方案 。 

近年 来 ,在 许多 专业 应 用 场合 ,熟练 使 用 与 编译 程序 /系统 相关 的 系统 级 软件 工具 已 成 
为 必须 掌握 的 基本 技能 之 一 。 为 此 ,本 书 安排 了 有 关 开 源 的 GCC 编译 器 和 相关 工具 链 
Binutils 的 章节 (第 12 BE) ,为 学 生 将 来 有 可 能 从 事 相 关 领 域 的 工作 进行 基本 和 必要 的 准备 。 
对 于 这 部 分 内 容 ,不 同学 校 或 专业 的 课程 可 根据 自身 情况 引导 或 建议 学 生 进行 适当 的 训练 。 

本 书 的 第 1 章 、 第 2 章 和 第 3 章 由 张 素 琴 和 王 生 原 共同 编写 ,第 4 章 和 第 6 h e 
芝 、 张 素 琴 和 王 生 原 共同 编写 ,第 5 章 由 吕 映 芝 编 写 ,第 7 章 和 第 11 章 由 王 生 原 编写 ,第 
8 章 和 第 9 章 由 王 生 原 和 蒋 维 杜 共同 编写 ,第 10 章 由 董 济 和 王 生 原 共同 编写 ,第 12 章 由 董 
浏 编写 。 

ois 


附录 中 包含 PL/0 源 程序 的 Pascal 版 本 和 C 版 本 的 代码 ,Java 版 本 的 代码 可 从 清华 大 
学 出 版 社 网 站 上 获取 。 另 外 , 若 相 关 课程 需要 用 到 Decal 编译 实验 框架 的 代码 ,任课 教师 可 
与 清华 大 学 出 版 社 或 编者 联系 ( 仅 限 于 用 作 教 学 资源 的 共享 与 交流 ) 。 

适合 在 “编译 原理 ”课程 中 讲授 的 内 容 非常 广泛 ,从 国际 上 的 著名 教材 来 看 ,在 侧重 点 、 
内 容 和 风格 上 都 有 相当 大 的 差异 。 由 于 编者 水 平 所 限 , 书 中 必然 存在 不 当 和 玻 漏 之 处 , 诚 请 
广大 读者 批评 指正 。 


编 者 
2015 年 5 月 
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1.1 什么 是 编译 程序 


编译 程序 是 现代 计算 机 系统 的 基本 组 成 部 分 之 一 ,而 且 多 数 计算 机 系统 都 配 有 不 止 一 
种 高 级 语言 的 编译 程序 ,对 有 些 高 级 语言 甚至 配置 了 几 个 不 同性 能 的 编译 程序 。 从 功能 上 
看 ,一 个 编译 程序 就 是 一 个 语言 翻译 程序 。 语 言 翻译 程序 把 一 种 语言 ( 称 作 源 语 言 ) 书 写 的 
程序 翻译 成 另 一 种 语言 ( 称 作 目标 语言 ) 的 等 价 程序 。 比 如 ,汇编 程序 是 一 个 翻译 程序 , 它 把 
汇编 语言 程序 翻译 成 机 器 语言 程序 。 如 果 源 语言 是 像 FORTRAN, Pascal 或 C 那样 的 高 级 
语言 ,目标 语言 是 像 汇编 语言 或 机 器 语言 那样 的 低级 语言 , 则 这 种 翻译 程序 称 作 编译 程序 。 
把 编译 程序 看 成 一 个 " 黑 盒子 ”, 它 所 执行 的 转换 工作 可 用 图 1. 1 来 说 明 。 

一 个 编译 程序 的 重要 性 体现 在 它 使 得 多 数 计 算 机 用 户 不 必 考 虑 与 机 器 有 关 的 烦琐 细 
节 , 使 程序 员 和 程序 设计 专家 独立 于 机 器 ,这 对 于 当今 机 器 的 数量 和 种 类 持续 不 断 地 增长 的 
年 代 尤为 重要 。 

使 用 过 计算 机 的 人 都 知道 ,除了 编译 程序 外 ,还 需要 一 些 其 他 程序 才能 生成 一 个 可 在 计 
算 机 上 执行 的 目标 程序 。 下 面 分 析 一 个 程序 设计 语言 程序 的 典型 的 处 理 过 程 ( 见 图 1. 2)， 
可 以 从 中 进一步 了 解 编 译 程序 的 作用 。 

需 预 处 理 的 源 程序 


预 处 理 程序 


i 
wid 


编译 程序 
i 


目标 汇编 语言 程序 


汇编 程序 


i 
可 再 装配 的 机 器 代码 


装配 /连接 编辑 程序 ” | 一 一 可 再 装配 目标 文件 


高 级 语言 程序 = 低级 语言 程序 
(产程 序 ) STEF (BHEO 绝对 机 器 代码 


图 1.1 编译 程序 的 功能 图 1.2 高 级 语言 程序 的 处 理 过 程 


一 个 源 程序 有 时 可 能 分 成 几 个 模块 存放 在 不 同 的 文件 里 ,将 这 些 源 程序 汇集 在 一 起 的 
任务 ,由 一 个 叫做 预 处 理 程序 的 程序 来 完成 ,有 些 预 处 理 程序 也 负责 宏 展 开 , 像 C 语言 的 预 
处 理 程序 要 完成 文件 合并 、 宏 展开 等 任务 。 图 1. 2 中 的 编译 程序 生成 的 目标 程序 是 汇编 代 

om ee 


码 形式 ,需要 经 由 汇编 程序 翻译 成 可 再 装配 (或 可 重 定位 ) 的 机 器 代码 ,再 经 由 装配 /连接 编 
辑 程序 与 某 些 库 程 序 连接 成 真正 能 在 机 器 上 运行 的 代码 。 也 就 是 说 ,一 个 编译 程序 的 输入 
可 能 要 由 一 个 或 多 个 预 处 理 程序 来 产生 ;另外 ,为 得 到 能 运行 的 机 器 代码 ,编译 程序 的 输出 
可 能 仍 需要 进一步 地 处 理 。 

编译 程序 的 基本 任务 是 将 源 语言 程序 翻译 成 等 价 的 目标 语言 程序 。 源 语言 的 种 类 成 千 上 
万 ,从 常用 的 诸如 FORTRAN、Pascal`C Java 和 C++ 等 语言 ,到 各 种 各 样 的 计算 机 应 用 领域 的 
专用 语言 ;而 目标 语言 也 是 种 类 繁多 的 ,加 上 编译 程序 由 于 构造 不 同 ,所 执行 的 具体 功能 有 差 
异 ,又 分 成 了 各 种 类 型 ,如 一 趟 编译 、 多 趟 编译 .具有 调试 或 优化 功能 的 编译 等 。 尽 管 存在 这 些 
明显 的 复杂 因素 ,但 是 任何 编译 程序 所 必须 执行 的 主要 任务 基本 是 一 样 的 ,通过 理解 这 些 任 
务 , 使 用 同样 的 基本 技术 ,可 以 为 各 种 各 样 的 源 语言 和 目标 语言 设计 和 构造 编译 程序 。 

据说 第 一 个 编译 程序 出 现在 20 世纪 50 年 代 早 期 ,很 难 讲 出 确切 的 时 间 , 因 为 当初 大 量 
的 实验 和 实现 工作 是 由 不 同 的 小 组 独立 完成 的 ,多 数 早 期 的 编译 工作 是 将 算术 公式 翻译 成 
机 器 代码 。 用 现在 的 标准 来 衡量 ,当时 的 编译 程序 能 完成 的 工作 十 分 初步 ,如 只 允许 简单 的 
单 目 运算 ,数据 元 素 的 命名 方式 有 很 多 限制 ,然而 它们 竟 定 了 对 高 级 语言 编译 程序 的 研究 和 
开发 的 基础 。20 世纪 50 年 代 中 期 出 现 了 FORTRAN 等 一 批 高 级 语言 ,相应 的 一 批 编译 系 
统 开发 成 功 。 随 着 编译 技术 的 发 展 和 社会 对 编译 程序 需求 的 不 断 增长 , 20 世纪 
50 年 代 末 有 人 开始 研究 编译 程序 的 自动 生成 工具 ,提出 并 研制 编译 程序 的 编译 程序 。 它 的 
功能 是 以 任 一 语言 的 词法 规则 ,语法 规则 和 语义 解释 出 发 ,自动 产生 该 语言 的 编译 程序 。 目 
前 很 多 自动 生成 工具 已 广泛 使 用 ,如 词法 分 析 程 序 的 生成 系统 LEX, 语 法 分 析 程 序 的 生成 
系统 YACC 等 。 


1.2 编译 过 程 和 编译 程序 的 结构 


1.2.1 编译 过 程 概述 


编译 程序 完成 从 源 程序 到 目标 程序 的 翻译 工作 ,是 一 个 复杂 的 整体 的 过 程 。 从 概念 上 
来 讲 , 一 个 编译 程序 的 整个 工作 过 程 是 划分 成 阶段 进行 的 ,每 个 


al 阶段 将 源 程序 的 一 种 表示 形式 转换 成 另 一 种 表示 形式 ,各 个 阶段 
词法 分 析 进行 的 操作 在 逻辑 上 是 紧密 连接 在 一 起 的 ,图 1. 3 给 出 了 一 个 编 
ator 译 过 程 的 各 个 阶段 ,这 是 一 种 典型 的 划分 方法 ,将 编译 过 程 划分 
成 词法 分 析 、 语 法 分 析 、 语 义 分 析 、 中 间 代 码 生 成 .代码 优 化 和 目 
语义 分 析 标 代码 生成 6 个 阶段 。 
a 下 面 通过 源 程序 在 不 同 阶段 所 被 转换 成 的 表示 形式 来 介绍 
i 各 个 阶段 的 任务 。 
代码 优化 1. 词法 分 析 
i 词法 分 析 是 编译 过 程 的 第 一 个 阶段 。 这 个 阶段 的 任务 是 从 


目标 代码 生成 


左 到 右 一 个 字符 一 个 字符 地 读 入 源 程序 ,对 构成 源 程序 的 字符 
目标 程序 流 进行 扫描 和 分 解 ,从 而 识别 出 一 个 个 单词 (一 些 场合 下 也 称 单 
图 1.3 编译 的 各 个 阶段 词 符号 或 符号 )。 这 里 所 谓 的 单词 是 指 迎 辑 上 紧密 相连 的 一 组 


sa 


字符 ,这 些 字符 具有 和 集体 含义 。 例 如 ,标识 符 是 由 字母 字符 开头 ,后 跟 字母 .数字 字符 的 
字符 序列 组 成 的 一 种 单词 。 保 留 字 ( 关 键 字 或 基本 字 ) 是 一 种 单词 ,此 外 还 有 算 符 、 界 符 
等 。 例 如 , 某 源 程序 片段 如 下 : 


begin var sum, first, count: real; sum *=first+count * 10 end. 


词法 分 析 阶 段 将 构成 这 段 程序 的 字符 组 成 了 如 下 单词 序列 : 
(1) 保留 字 begin (2) 保留 字 var (3) 标识 符 sum 


(4) 去 号， (5) 标识 符 first (6) HS, 

(7) 标识 符 count (8) AS: (9) 保留 字 real 
(10) 分 号 ; (11) 标识 符 sum (12) 赋值 号 := 
(13) 标识 符 first aD) 加 号 十 (15) 标识 符 count 
(16) Fe * (17) 整数 10 (18) 保留 字 end 
aD 界 符 . 


可 以 看 出 ,5 个 字符 be、g、i 和 n 构成 了 一 个 称 为 保留 字 的 单词 begin, 两 个 字符 :和 = 
构成 了 表示 赋值 运算 的 符号 := .这 些 单词 间 的 空格 在 词法 分 析 阶 段 都 被 滤 掉 了 。 

用 id] ,id2 和 id3 分 别 表示 sum first 和 count 这 3 个 标识 符 的 内 部 形式 ,那么 经 过 词法 分 
析 后 上 述 程序 片段 中 的 赋值 语句 sum :二 first 十 count * 10 则 表示 为 idl := 一 id2 十 id3 * 10。 

2. 语法 分 析 

语法 分 析 是 编译 过 程 的 第 二 个 阶段 。 语 法 分 析 的 任务 是 在 词法 分 析 的 基础 上 将 单词 序 
列 分 解 成 各 类 语法 短语 ,如 “程序 ” “语句 ”“ 表 达 式 ”等 。 这 种 语法 短语 也 称 为 语法 单位 ,可 
表示 成 语法 树 ,比如 上 述 程序 段 中 的 单词 序列 

idl :一 id2 十 id3 * 10 


经 语法 分 析 得 知 其 是 Pascal 语言 的 赋值 语句 ,表示 成 如 图 1. 4 所 示 的 语法 树 或 者 如 
图 1.5 所 示 的 简捷 形式 的 语法 树 。 
赋值 语句 


idl(sum) HER |m Pa N 
| | ee 


标识 符 KAA * 表达 式 N 
id2(first) 标识 符 整数 ig es 
id3(count) 10 id3 10 
图 1.4 语句 idl +=id2+id3 * 10 的 语法 树 1.5 语句 idl :一 id2 十 id3 * 10 
的 语法 树 的 简捷 形式 


语法 分 析 所 依据 的 是 语言 的 语法 规则 , 即 描述 程序 结构 的 规则 。 通 过 语法 分 析 确定 整 
个 输入 串 是 否 构 成 一 个 语法 上 正确 的 程序 。 


程序 的 结构 通常 是 由 递归 规则 表示 的 ,例如 ,可 以 用 下 面 的 规则 来 定义 表达 式 : 

(1) 任何 标识 符 是 表达 式 。 

(2) 任何 常数 ( 整 常数 、 实 常数 ) 是 表达 式 。 

(3) 若 表 达 式 1 和 表达 式 2 都 是 表达 式 ,那么 : 

表达 式 1 十 表达 式 2 

表达 式 1 * 表达 式 2 

(表达 式 1) 
都 是 表达 式 。 

类 似 地 ,语句 也 可 以 递归 地 定义 ,如 

(1) 标识 符 := 表达 式 是 语句 。 

(2) while( 表 达 式 ) do 语句 
和 

If (表达 式 ) then 语句 else 语句 
都 是 语句 。 

上 述 赋 值 语 句 idl := 一 id2 十 id3 * 10 之 所 以 能 表示 成 图 1.4 所 示 的 语法 树 , 依 据 的 是 赋 
值 语 句 和 表达 式 的 定义 规则 。 

词法 分 析 和 语法 分 析 本 质 上 都 是 对 源 程序 的 结构 进行 分 析 。 但 词法 分 析 的 任务 仅 对 源 
程序 进行 线性 扫描 即 可 完成 ,比如 识别 标识 符 , 因 为 标识 符 的 结构 是 字母 打头 的 字母 和 数字 
串 , 这 只 要 顺序 扫描 输入 流 , 遇 到 既 不 是 字母 又 不 是 数字 的 字符 时 ,将 前 面 所 发 现 的 所 有 字 
母 和 数字 组 合 在 一 起 构成 标识 符 单词 即 可 。 但 这 种 线性 扫描 不 能 用 于 识别 递归 定义 的 语法 
成 分 ,比如 不 能 用 此 办 法 去 匹配 表达 式 中 的 括号 。 

3. 语义 分 析 

语义 分 析 是 审查 源 程序 有 无 语义 错误 ,为 代码 生成 阶段 收集 类 型 信息 。 例 如 ,语义 分 析 
的 一 个 工作 是 进行 类 型 审查 ,审查 每 个 算 符 是 否 具有 语言 规范 允许 的 运算 对 象 , 当 不 符合 语 
言 规 范 时 ,编译 程序 应 报告 错误 。 有 的 编译 程序 要 对 实数 用 作 数 组 下 标的 情况 报告 错误 。 
某 些 语言 规定 运算 对 象 可 被 强制 转换 数据 类 型 ,那么 当 二 目 运 算 施 于 一 个 整 型 对 象 和 一 个 
实 型 对 象 时 ,编译 程序 应 将 整 型 对 象 转换 成 实 型 对 象 进 行 二 
处 理 而 不 能 认为 是 源 程序 的 错误 ,假如 在 语句 sm :=first ”AN 


count * 10 中 ,count 是 实 型 ,10 是 整 型 , 则 语义 分 析 阶 段 进行 idl 

类 型 审查 之 后 ,在 语法 分 析 所 得 到 的 分 析 树 上 增加 一 个 语义 A N 

处 理 结 点 inttoreal ,表示 整 型 10 变 成 实 型 10. 0 的 一 目 算 符 ， ude i 

则 图 1.5 的 树 变 成 图 1. 6 所 示 的 树 。 Z N 
4. 中 间 代 码 生成 a me 
在 进行 了 上 述 的 语法 分 析 和 语义 分 析 阶 段 的 工作 之 10 


后 ,有 的 编译 程序 将 源 程序 变 成 一 种 内 部 表示 形式 ,这 种 ”图 1.6 插入 语义 处 理 结 点 的 树 
内 部 表示 形式 叫做 中 间 语 言 或 中 间 代 码 。 所 谓 “ 中 间 代 

码 ” 是 一 种 结构 简单 ,含义 明确 的 记号 系统 ,这 种 记号 系统 可 以 设计 为 多 种 多 样 的 形式 ,重要 
的 设计 原则 为 两 点 : 一 是 容易 生成 ;二 是 容易 将 它 翻译 成 目标 代码 。 很 多 编译 程序 采用 了 


。4 。 


一 种 近似 “三 地 址 指令 ”的 “四 元 式 ” 中 间 代 码 ,这 种 四 元 式 的 形式 为 
(运算 符 ,运算 对 象 1, 运 算 对 象 2, 结 果 ) 


例如 , 源 程序 sum :二 first 十 count * 10 可 生成 如 图 1.7 所 示 的 四 元 式 序列 ,其 中 t (i 二 1， 
2,3) 是 编译 程序 生成 的 临时 名 字 , 用 于 存放 运算 的 中 间 结 果 。 

5. 代码 优化 

这 一 阶段 的 任务 是 对 前 一 阶段 产生 的 中 间 代 码 进行 变换 或 进行 改造 ,目的 是 使 生成 的 
目标 代码 更 为 高 效 , 即 省 时 间 和 省 空间 。 例 如 ,图 1.7 的 代码 可 变换 为 图 1. 8 的 代码 , 仅 剩 
两 个 四 元 式 而 执行 同样 的 计算 。 也 就 是 说 ,在 编译 程序 的 这 个 阶段 已 经 把 将 10 转换 成 实 型 
数 的 代码 化 简 了 ,同时 因为 t 仅仅 用 来 将 其 值 传递 给 idl ,也 可 以 被 化 简 , 这 只 是 优化 工作 
的 两 个 方面 ;此 外 ,诸如 公共 子 表达 式 的 删除 ,强度 削弱、 循环 优化 等 优化 工作 将 在 第 10 章 
详细 介绍 。 


(d) MOV id3, R2 

(1) (inttoreal 10 一 t) (2) MUL #10.0, R2 

D ë id3 h t) G) MOV id2 RI 

G) G id2 n t) (* id 100 t) (4) ADD R2, RI 

(4) (= t 一 idl) (+ id2 ti idl) (5) MOV RI, idl 
图 1.7 中 间 代 码 图 1.8 优化 后 的 中 间 代 码 图 1.9 目标 代码 


6. 目标 代码 生成 

这 一 阶段 的 任务 是 把 中 间 代 码 变 换 成 特定 机 器 上 的 绝对 指令 代码 或 可 重 定位 的 指令 代 
码 或 汇编 指令 代码 。 这 是 编译 的 最 后 阶段 , 它 的 工作 与 硬件 系统 结构 和 指令 含义 有 关 , 这 个 
阶段 的 工作 很 复杂 ,涉及 硬件 系统 功能 部 件 的 运用 、 机 器 指令 的 选择 、 各 种 数据 类 型 变量 的 
存储 空间 分 配 以 及 寄存 器 和 后 缓 寄存 器 的 调度 等 。 

例如 ,使 用 两 个 寄存 器 (R1 和 R2) ,可 能 将 图 1.8 所 示 的 中 间 代 码 生成 如 图 1. 9 所 示 的 
某 种 汇编 代码 。 第 1 条 指令 将 id3 的 内 容 送 至 寄存 器 R2, 第 2 条 指令 将 其 与 实 常 数 10. 0 相 
乘 ,这 里 用 上 # 表 明 10.0 处 理 为 常数 ,第 3 条 指令 将 id2 移 至 寄存 器 R1, 第 4 条 指令 将 R1 和 
R2 中 的 值 相 加 ,第 5 条 指令 将 寄存 器 R1 的 值 移 到 idl 的 地 址 中 。 

上 述 编译 过 程 的 阶段 划分 是 一 个 典型 处 理 模 式 , 事 实 上 并 非 所 有 的 编译 程序 都 分 
成 这 样 几 个 阶段 ,有 些 编译 程序 并 不 需要 生成 中 间 代 码 , 有 些 编译 程序 不 进行 优化 , 即 
优化 阶段 可 省 去 ,有 些 最 简单 的 编译 程序 在 语法 分 析 的 同时 产生 目标 指令 代码 ,如 1. 4 
节 介 绍 的 PL/0 语言 编译 程序 。 不 过 多 数 实 用 的 编译 程序 都 包含 上 述 几 个 阶段 的 工作 
过 程 。 


1.2.2 编译 程序 的 结构 


上 述 编译 过 程 的 6 个 阶段 的 任务 可 以 分 别 由 6 个 模块 完成 ,分 别称 作词 法 分 析 程 序 、. 语 
法 分 析 程序 .语义 分 析 程 序 . 中 间 代 码 生成 程序 代码 优化 程序 和 目标 代码 生成 程序 。 此 外 ， 
一 个 完整 的 编译 程序 还 必须 包括 表格 管理 程序 和 出 错 处 理 程序 。 图 1. 10 给 出 了 一 个 典型 
的 编译 程序 结构 框图 。 
表格 管理 和 出 错 处 理 与 上 述 6 个 阶段 都 有 联系 。 编 译 过程 中 源 程 序 的 各 种 信息 被 保留 
在 种 种 不 同 的 表格 里 ,编译 各 阶段 的 工作 都 涉及 构造 查找 或 更 新 有 关 的 表格 ,因此 需要 有 
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| | mnie } | 


| 人 语义 分 程序 | | 


中 间 代 码 生成 程序 


ORE Oe oe At 
FR BS ee 


a 代码 优化 程序 “| 一 一 一 | 
| 


目标 程序 
图 1.10 编译 程序 结构 框图 


表格 管理 的 工作 。 如 果 编 译 过 程 中 发 现 源 程序 有 错误 ,编译 程序 应 报告 错误 的 性 质 和 错误 
发 生 的 地 点 ,并 且 将 错误 所 造成 的 影响 限制 在 尽 可 能 小 的 范围 内 ,使 得 源 程序 的 其 余部 分 能 
继续 被 编译 下 去 ,有 些 编译 程序 还 能 自动 校正 错误 ,这 些 工 作 由 出 错 处 理 程序 完成 。 


1.2.3 编译 阶段 的 组 合 


1. 2. 1 节 所 讨论 的 编译 阶段 的 划分 是 编译 程序 的 逻辑 组 织 。 有 时 把 编译 的 过 程 分 为 前 
端 (front end) 和 后 端 (back end) ,前 端的 工作 主要 依赖 于 源 语言 而 与 目标 机 无 关 。 前 端 通 
常 包括 词法 分 析 、 语 法 分 析 、 语 义 分 析 和 中 间 代 码 生 成 这 些 阶段 , 某 些 优化 工作 也 可 在 前 端 
做 ,还 包括 与 前 端 每 个 阶段 相关 的 出 错 处 理工 作 和 符号 表 管 理工 作 。 后 端 指 的 是 那些 依赖 
于 目标 机 而 一 般 不 依赖 于 源 语 言 , 只 与 中 间 代 码 有 关 的 那些 阶段 的 工作 , 即 目标 代码 生成 ， 
以 及 相关 出 错 处 理 和 符号 表 操 作 。 

若 按照 这 种 组 合 方式 实现 编译 程序 ,可 以 设想 , 某 一 编译 程序 的 前 端 加 上 相应 的 后 端 则 
可 以 为 不 同 的 机 器 构成 同一 个 源 语言 的 编译 程序 。 也 可 以 设想 ,不 同 语言 编译 的 前 端 生成 
同一 种 中 间 语 言 ,再 使 用 一 个 共同 的 后 端 , 则 可 为 同一 机 器 生成 几 个 语言 的 编译 程序 。 

一 个 编译 过 程 可 由 一 遍 \ 两 遍 或 多 遍 完成 。 所 谓 “ 遍 ?”, 也 称 作 * 趟 ”, 是 对 源 程序 或 其 等 
价 的 中 间 语 言 程 序 从 头 到 尾 扫 描 并 完成 规定 任务 的 过 程 。 每 一 遍 扫描 可 完成 上 述 一 个 阶段 
或 多 个 阶段 的 工作 。 例 如 ,一遍 可 以 只 完成 词法 分 析 工作 ,一 遍 完成 词法 分 析 和 语法 分 析 工 
作 , 甚 至 一 遍 完成 整个 编译 工作 。 对 于 多 遍 的 编译 程序 ,第 一 遍 的 输入 是 用 户 书写 的 源 程 
序 , 最 后 一 遍 的 输出 是 目标 程序 ,其 余 是 上 一 遍 的 输出 为 下 一 遍 的 输入 。 在 实际 的 编译 系统 
的 设计 中 ,编译 的 几 个 阶段 的 工作 究竟 应 该 怎样 组 合 . 即 编译 程序 究竟 分 成 几 遍 ,参考 的 因 
素 主 要 是 源 语 言 和 机 器 (目标 机 ) 的 特征 。 例 如 , 源 语 言 的 结构 直接 影响 编译 的 遍 的 划分 ; 像 
PL/1 或 ALGOL 68 那样 的 语言 ,允许 名 字 的 说 明 出 现在 名 字 的 使 用 之 后 ,那么 在 看 到 名 字 
之 前 是 不 便 为 包含 该 名 字 的 表达 式 生成 代码 的 ,这 种 语言 的 编译 程序 至 少 分 成 两 遍 才 容 易 
生成 代码 。 另 外 ,机 器 的 情况 , 即 编译 程序 工作 的 环境 也 影响 编译 程序 的 遍 数 的 划分 。 一 个 
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多 遍 的 编译 程序 可 以 比 一 遍 的 编译 程序 少 占 内 存 , 遍 数 多 一 点 ,整个 编译 程序 的 迎 辑 结构 可 
能 更 清晰 ,但 遍 数 多 也 意味 着 增加 读 写 中 间 文 件 的 次 数 ,势必 消耗 较 多 时 间 , 显 然 会 比 一 遍 
的 编译 程序 要 慢 。 


1.3 解释 程序 和 一 些 软件 工具 


1.3.1 解释 程序 


编译 程序 是 一 个 语言 处 理 程序 , 它 把 一 个 高 级 语言 程序 翻译 成 某 个 机 器 的 汇编 语言 
程序 或 二 进 制 代码 程序 ,这 个 二 进 制 代码 程序 在 机 器 上 和 运行 以 生成 结果 。 因 此 通过 编译 
程序 使 得 程序 员 可 以 先 准备 好 一 个 在 该 机 器 上 运行 的 程序 ,然后 这 个 程序 便 会 以 机 器 的 
速度 运行 。 但 是 在 不 把 整个 程序 全 部 翻译 完成 之 后 ,这 个 程序 是 不 能 开始 运行 ,也 不 能 
产生 任何 结果 的 。 编 译 和 运行 是 两 个 独立 分 开 的 阶段 。 但 在 一 个 交互 环境 中 ,并 不 需要 
将 这 两 个 阶段 分 隔 开 。 这 里 介绍 另 一 种 语言 处 理 程序 , 叫 解释 程序 , 它 不 需要 在 运行 前 
先 把 源 程序 翻译 成 目标 代码 ,也 可 以 实现 在 某 台 机 器 上 运行 程序 并 生成 结果 。 

解释 程序 接受 某 个 语言 的 程序 并 立即 运行 这 个 源 程序 。 它 的 工作 模式 是 一 个 个 的 获 
取 、 分 析 并 执行 源 程序 语句 ,一 旦 第 一 个 语句 分 析 结 束 , 源 程 序 便 开始 运行 并 且 生 成 结果 , 它 
特别 适合 程序 员 以 交互 方式 工作 的 情况 , 即 希 望 在 获取 下 一 个 语句 之 前 了 解 每 个 语句 的 执 
行 结 果 ,允许 执行 时 修改 程序 。 

著名 的 解释 程序 有 BASIC 语言 解释 程序 、LISP 语言 解释 程序 .UNIX 命令 语言 (shell) 解 
释 程序 数据 库 查询 语言 SQL 解释 程序 以 及 Java 语言 环境 中 ( 见 图 1.15) 的 BYTECODE 解释 
程序 。 

图 1.11 表 示 了 解释 程序 的 功能 ,图 1. 12 表示 了 编译 程序 和 解释 程序 的 不 同 工 作 


模式 。 
源 程 序 一 一 > 
解释 程序 | > 计算 结果 
初始 数据 二 一 > 


图 1.11 解释 程序 的 功能 


MOV #2.0 R; 


一 了] 生成 代码 ,| MOV Ri b 
上 一 编译 程序 MOV b 


R, 
ADD R) R 
MOV R, a 


O 解释 程序 直接 将 4 的 值 
输出 (显示 ) 


1. 12 编译 程序 和 解释 程序 的 不 同 工 作 模式 
解释 程序 的 输入 包括 源 程序 和 源 程序 的 初始 数据 (输入 数据 ), 它 不 生成 目标 代码 ,直接 


Pay dar 


输出 结果 。 编 译 程序 和 解释 程序 的 存储 组 织 也 有 很 大 不 同 。 经 由 编译 程序 处 理 时 ,在 源 程 
序 被 编译 的 阶段 ,存储 区 中 要 为 源 程序 (中 间 形 式 ) 和 目标 代码 开辟 空间 ,要 存放 编译 用 的 各 
种 表格 ,如 符号 表 。 在 目标 代码 运行 阶段 ,存储 区 中 主要 是 目标 代码 和 数据 ,编译 所 用 的 任 
何 信 息 都 不 再 需要 了 。 

解释 程序 一 般 是 把 源 程序 一 个 语句 一 个 语句 地 进行 语法 分 析 , 转 换 为 一 种 内 部 表示 形 
式 , 存 放 在 源 程序 区 。 例 如 ,BASIC 解释 程序 将 LET A GOTO 这 样 的 关键 字 表示 为 一 个 
字 节 的 操作 码 ,标识 符 用 其 在 符号 表 的 入 口 位 置 表示 。 因 为 解释 程序 允许 在 执行 用 户 程序 
时 修改 用 户 程 序 , 这 就 要 求 在 解释 程序 工作 的 整个 过 程 中 , 源 程序 \ 符 号 表 等 内 容 始终 存放 
在 存储 区 中 ,并 且 存 放 格 式 要 设计 得 易于 使 用 和 修改 。 

图 1.13 和 图 1. 14 分 别 表示 了 编译 程序 的 编译 阶段 .运行 阶段 以 及 解释 程序 的 存储 区 
内 容 。 


源 程序 缓冲 区 解释 系统 
目标 代码 区 
名 字 表 源 程序 
目标 代码 缓冲 区 工作 单元 及 名 字 表 
编译 程序 用 中 间 数据 区 标号 表 
表示 及 各 种 表格 缓冲 区 (输入 输出 ) 
编译 时 运行 时 栈 区 
图 1.13 编译 程序 的 编译 阶段 和 运行 阶段 的 存储 区 内 容 图 1.14 解释 程序 的 存储 区 内 容 


程序 的 解释 是 非常 慢 的 ,有 时 一 个 高 级 语言 源 程序 的 解释 会 比 运行 等 价 的 机 器 代码 程 
序 慢 100 倍 。 因 此 当 程 序 的 运行 速度 非常 重要 时 ,是 不 能 采用 解释 方式 的 。 另 外 ,解释 程序 
的 空间 开销 也 是 比较 大 的 。 

编译 程序 和 解释 程序 是 两 类 重要 的 高 级 语言 处 理 程序 。 有 些 语言 ,如 BASIC, LISP 和 
Pascal 等 , 既 有 编译 程序 ,也 有 解释 程序 。Java 语言 的 处 理 环境 既 有 编译 程序 ,也 有 解释 程 
序 。 图 1. 15 展示 了 Java 语言 处 理 环境 。 


1.3.2 处 理 源 程序 的 软件 工具 


人 们 已 经 认识 到 ,为 了 提高 软件 的 开发 效率 和 质量 ,需要 有 一 套 软件 开发 过 程 所 遵循 的 
规范 或 标准 ,应 使 用 先进 的 软件 开发 方法 ,并 有 相应 的 软件 工具 的 支持 。 而 这 些 软件 工具 的 
开发 ,其 中 很 多 要 用 到 编译 的 原理 和 技术 。 实 际 上 ,编译 程序 本 身 也 是 一 种 软件 开发 工具 ， 
有 了 它们 才能 使 用 编程 效率 高 的 高 级 语言 来 编写 程序 。 为 了 进一步 提高 编程 效率 ,缩短 调 
试 时 间 ,软件 工作 人 员 研 制 了 许多 针对 源 程 序 处 理 的 软件 工具 ,这 些 工具 首先 要 像 编 译 程序 
那样 对 源 程序 进行 分 析 。 下 面 是 这 些 工具 的 一 些 例子 。 

1. 语言 的 结构 化 编辑 器 

用 户 可 使 用 这 种 编辑 器 在 语言 的 语法 制导 下 编制 出 所 需 的 源 程序 。 结 构 化 编辑 器 不 仅 
具有 通常 的 正文 编辑 器 的 正文 编辑 和 修改 功能 ,而 且 还 能 像 编译 程序 那样 对 源 程序 正文 进 
行 分 析 。 因 此 ,结构 化 编辑 器 能 够 执行 一 些 对 正确 编制 程序 有 帮助 的 附加 的 任务 。 例 如 , 它 
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编译 环境 运行 环境 (Java FA) 
Java 类 装载 器 
源 程序 BYTECODE “站 | a AIF 
Ciaya) 验证 器 
Java i — 
Java = BYTECODE 
编译 程序 (来 自 本 地 的 或 经 解释 程序 即时 编译 程序 
| 由 网 络 的 ) 
Java 虚拟 机 
Java 
BYTECODE 
(class) 硬件 


图 1.15 Java 语言 环 境 


能 够 检查 用 户 的 输入 是 否 正确 ,能 够 自动 地 提供 关键 字 , 当 用 户 输入 过后 ,编辑 器 立即 显示 
then 并 将 这 两 个 关键 字 之 间 必 须 出 现 的 条 件 留 给 用 户 输入 ,还 能 够 检查 begin 或 左 括号 与 
end 或 右 括号 是 否 相 匹 配 等 。 由 于 结构 化 编辑 器 具有 上 述 功能 , 既 可 保证 编写 出 的 源 程序 
无 语法 错误 ,并 有 统一 的 .可 读 性 好 的 程序 格式 ,这 无 疑 将 会 提高 程序 的 开发 效率 和 质量 。 
这 类 商用 产品 很 多 ,如 Turbo-Edit,Editplus 和 Ultraedit 等 。 很 多 集成 开发 环境 中 里 也 都 
包含 这 种 类 似 的 工具 ,如 JBuilder 中 就 有 Java 程序 的 结构 化 编辑 器 。 

2. 语言 程序 的 调试 工具 

调试 是 软件 开发 过 程 中 的 一 个 重要 环节 ,结构 化 编辑 器 只 能 解决 语法 错误 的 问题 ， 
而 对 一 个 已 通过 编译 的 程序 来 说 , 需 进 一 步 了 解 的 是 程序 执行 的 结果 与 编程 人 员 的 意图 
是 否 一 致 , 程 序 的 执行 是 否 实现 预计 的 算法 和 功能 。 这 种 算法 的 错误 或 者 程序 没 能 反映 
算法 的 功能 等 问题 就 要 用 调试 器 来 协助 解决 。 有 一 种 调试 器 允许 用 户 使 用 源 程序 正文 
和 它 的 符号 来 调试 , 即 一 行 一 行 地 跟踪 程序 ,查看 变量 和 数据 结构 的 变化 以 进行 调试 工 
作 。 当 然 , 这 些 符号 的 信息 必须 由 编译 程序 提供 。 调 试 器 的 实现 可 以 有 很 多 途径 。 其 中 
一 种 是 写 一 个 解释 器 ,以 交互 的 方式 翻译 和 执行 每 一 行 , 它 必须 维护 其 所 有 的 运行 时 的 
资源 以 保证 在 程序 执行 期 间 可 以 很 容易 地 查询 不 同 变 量 的 当前 值 。 如 果 不 通 过 解释 手 
段 调试 ,而 是 在 编译 之 后 的 代码 上 进行 调试 ,编译 程序 必须 在 目标 代码 (汇编 ) 生 成 时 同 
时 生成 特定 的 调试 信息 ,例如 ,关联 标识 符 和 它 表 示 的 地 址 的 信息 ,用 于 无 歧义 地 引用 一 
个 声明 了 多 次 的 标识 符 的 信息 等 。 调 试 功能 越 强 ,实现 越 复 杂 , 它 涉及 源 程序 的 语法 分 
析 和 语义 处 理 技 术 。 

3. 程序 格式 化 工具 

程序 格式 化 工具 分 析 源 程序 并 以 使 程序 结构 变 得 清晰 可 读 的 形式 打印 出 来 。 例 如 , 注 
释 可 以 以 一 种 专门 的 字形 出 现 , 且 语句 的 嵌 套 层次 结构 可 以 用 缩 排 方 式 ( 齿 形 结构 ) 表 示 
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出 来 。 

4. 语言 程序 测试 工具 

语言 程序 的 测试 工具 有 两 种 : 静态 分 析 器 和 动态 测试 器 。 

静态 分 析 器 是 在 不 运行 程序 的 情况 下 对 源 程序 进行 静态 分 析 , 以 发 现 程序 中 潜在 的 错 
误 或 异常 。 它 对 源 程 序 进行 语法 分 析 并 制定 相应 表格 ,检查 变量 定 值 与 引用 的 关系 ,如 某 变 
量 未 被 赋值 就 被 引用 ,或 定 值 后 未 被 引用 ,或 多 余 的 源 代 码 等 一 些 编译 程序 的 语法 分 析 发 现 
不 了 的 错误 。 

动态 测试 工具 也 是 首先 对 源 程序 进行 分 析 , 在 分 析 基 础 上 将 用 于 记录 和 显示 程序 执行 
轨迹 的 语句 或 函数 插入 到 源 程序 的 适当 位 置 ,并 用 测试 用 例 记 录 和 显示 程序 运行 时 的 实际 
路 径 , 将 运行 结果 与 期 望 的 结果 进行 比较 分 析 , 帮 助 编程 人 员 查 找 问 题 。 

5. 程序 理解 工具 

程序 理解 工具 对 程序 进行 分 析 ,确定 模块 间 的 调用 关系 ,记录 程序 数据 的 静态 属性 和 结 
构 属 性 ,并 画 出 控制 流程 图 ,帮助 用 户 理解 程序 。 

6. 高 级 语言 之 间 的 转换 工具 

由 于 计算 机 硬件 的 不 断 更 新 换代 ,更 新 更 好 的 程序 设计 语言 的 推出 为 提高 计算 机 的 使 
用 效率 提供 了 良好 条 件 ,然而 一 些 已 有 的 非常 成 熟 的 软件 如 何在 新 机 器 新 语言 情况 下 使 用 
呢 ? 为 了 减少 重新 编制 程序 所 耗费 的 人 力 和 时 间 , 就 要 解决 如 何 把 一 种 高 级 语言 转换 成 另 
一 种 高 级 语言 ,乃至 汇编 语言 转换 成 高 级 语言 的 问题 。 这 种 转换 工作 要 对 被 转换 的 语言 进 
行 词法 和 语法 分 析 , 只 不 过 生成 的 目标 语言 是 另 一 种 高 级 语言 而 已 。 这 与 实现 一 个 完整 的 
编译 程序 相 比 工作 量 要 少 些 。 


1.4 PL/0 语言 编译 系统 


PL/0 语言 编译 系统 是 世界 著名 计算 机 科学 家 N. Wirth 编写 的 , 它 由 编译 程序 和 解释 
程序 两 部 分 组 成 。 对 PL/0 编译 程序 进行 实例 分 析 , 有 助 于 对 一 般 编译 过 程 和 编译 程序 结 
构 的 理解 。PL/0 编译 程序 的 源 语言 为 PL/0, 目 标语 言 是 一 个 类 P-code 的 代码 。 本 书 在 介 
绍 有 关 编 译 技术 和 方法 时 ,会 以 PL/0 编译 程序 的 相关 内 容 为 例 来 说 明 这 些 方法 是 如 何在 
实践 中 得 以 应 用 的 。 

N. Wirth 原本 使 用 的 编写 语言 是 Pascal( 参 见 附录 A. 1) ,考虑 到 普遍 性 和 通用 性 ,本 书 
给 出 了 PL/0 编译 系统 的 C 语言 版 本 (参见 附录 A. 2)。C 语言 版 本 完整 保持 与 Pascal 版 本 
的 结构 一 致 ,函数 (过 程 ) .变量 等 也 使 用 同样 的 名 字 。 附 录 A 中 代码 的 电子 版 可 从 清华 大 
学 出 版 社 网 站 中 的 本 书 相 关 电 子 资源 中 下 载 。 此 外 ,本 书 相 关 电 子 资源 中 还 包括 Java 版 
本 的 PL/0 编译 系统 ,也 是 原先 Pascal 版 本 的 翻版 。 如 不 特别 指明 ,本 书后 续 部 分 在 涉及 
PL/0 编译 程序 的 例子 中 均 指 C 语言 的 版 本 。 

本 节 首 先 介 绍 PL/0 语言 编译 系统 的 构成 ,其 次 给 出 PL/0 编译 程序 的 源 语言 和 目标 语 
言 ,最 后 简单 介绍 PL/0 编译 程序 的 基本 组 成 。PL/0 编译 程序 的 实现 细节 将 在 后 续 章 节 中 
穿插 讨论 。 
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1.4.1 PL/0 语言 编译 系统 构成 


PL/0 语言 编译 系统 由 编译 程序 和 解释 程序 两 部 分 组 成 ,分 别称 为 PL/0 编译 程序 和 类 
P-code 解释 程序 。PL/0 语言 程序 被 PL/0 编译 程序 转换 为 等 价 的 类 P-code 程序 。 当 编译 
程序 正常 结束 时 ,PL/0 语言 编译 系统 会 调用 解释 程序 (也 称 类 P-code 虚拟 机 ) ,解释 执行 所 
生成 的 目标 程序 ,如 图 1. 16 所 示 。 


PL/0 程 序 


i 


PL/0 编 译 程序 


A te seSSce= 
1 
i 


输入 数据 一 | 类 P-code 解 释 程序 上 一- 一 输出 数据 


1 
| 类 preode 虚 拟 机 | 


图 1.16 PL/O 语言 编译 系统 
为 了 描述 方便 ,通常 用 工 形 图 来 表示 一 个 编译 程序 涉及 的 三 个 方面 的 语言 , 即 源 语言 、 
目标 语言 和 编译 程序 的 书写 语言 (实现 语言 )。T 形 图 的 左上 角 表 示 源 语言 ,右上 角 表 示 目 
标语 言 , 底 部 表示 书写 语言 ,PL/0 编译 程序 的 工 形 图 如 图 1. 17 所 示 。 


PL/O 类 P-code 


C/Pascal/Java 


1.17 PL/0 编译 程序 了 T 形 图 


PL/0 编译 程序 将 PL/0 源 程序 翻译 成 类 P-code 目标 程序 , 源 语言 为 PL/0, 目 标语 言 
类 P-code。PL/0 编译 程序 可 用 C、Pascal 或 Java 等 各 种 语言 书写 。 

在 本 书 的 PL/0 语言 编译 系统 所 有 版 本 中 ,类 P-code 虚拟 机 都 是 采用 与 编写 PL/0 编 
译 程序 相同 的 语言 ( 即 C、Pascal 或 Java) 来 仿真 或 解释 实现 的 。 读 者 可 通过 阅读 附录 A 源 
代码 中 名 为 interpret 的 函数 (或 过 程 ) 理 解 类 P-code 虚拟 机 的 解释 实现 过 程 。 

对 PL/0 编译 程序 和 类 P-code 虚拟 机 进行 联 编 ,就 可 以 生成 目标 平台 上 可 执行 的 PL/0 
语言 编译 系统 。 用 高 级 语言 实现 的 类 P-code 虚拟 机 是 平台 无 关 的 ,因此 PL/0 语言 编译 系 
统 可 方便 地 移植 到 任何 目标 平台 。 


1.4.2 PL/0 语言 


PL/0 语言 的 程序 结构 很 简单 ,是 Pascal 的 一 个 子 集 。 图 1. 18 和 图 1. 19 分 别 给 出 了 
两 个 小 的 PL/0 程序 例子 。 


-dl. 


const a=10; /* 常量 说 明 部 分 */ 


var b,c; /* ERARA * / 
procedure P; /* 过 程 说 明 部 分 * / 
begin 
c:=b+a 
end; 
begin /* 主 程序 * / 
read(b); 
while b#0 do 
begin 
call p; write(2 * c); read(b) 
end 
end. 


1.18 PL/0 源 程序 例 1 


var m,n,r,q; 
{计算 m 和 n 的 最 大 公约 数 } 
procedure gcd; 


begin 
while r#0 do 
begin 
q *=m/n; 
r =m- q * n; 
m =n; 
n =r; 
end 
end; 
begin 
read(m); 
read(n); 
{为 了 方便 ,规定 m>=n } 
if m<n then 
begin 
r *=m3 
m :一 nj 
n t=r; 
end; 
begin 
rt=1; 
call ged; 
write(m) ; 
end; 


end. 


图 1.19 PL/0 源 程序 例 2 
在 实践 中 ,程序 语言 的 语法 描述 常 采 用 一 种 称 为 扩展 巴克 斯 范式 (EBNF) 的 形式 来 描 
述 。 采 用 这 种 形式 的 好 处 是 简洁 和 易 读 ,比较 适合 于 编译 程序 的 手工 构造 。 在 后 面 的 章节 
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里 介绍 的 PL/0 编译 程序 手工 构造 过 程 都 将 基于 这 种 EBNF 形式 的 描述 。 
表 1.1 是 PL/0 语言 语法 的 一 个 EBNF 描述 。 


表 1.1 PL/0 语言 语法 的 EBNF 描述 


PL/0 语法 单位 EBNF 描述 
过 程序 > :: 二 之 分 程序 >. 
二 分 程序 3 一 [ 志 常 量 说 明 部 分 之 ] [到 变量 说 明 部 分 之 ] [去 过 程 说 明 部 分 之 ] 二 语句 之 
去 常量 说 明 部 分 二 5 一 const 一 常量 定义 二 { ,二 常量 定义 二 }; 
去 常量 定义 二 +1 = <id>=<integer> 
二 变量 说 明 部 分 过 “| tt =var<id>{,<id>}; 
去 过 程 说 明 部 分 二 :: 二 之 过 程 首部 二 一 分 程序 二 {; 二 过 程 说 明 部 分 二 ); 
二 过 程 首部 二 +: = procedure <id>; 
< 语句 > 3 一 所 赋值 语句 之 | 二 条 件 语句 之 | 二 当 型 循环 语句 之 | 王 过程 调用 语句 之 | 二 读 
语句 之 | 雪 写 语句 之 | 所 复合 语句 之 | 雪 空 语句 之 
二 赋值 语句 之 4 一 <id> :一 < 表达 式 之 
二 复合 语句 二 5 一 begin 一 语句 之 {; 二 语句 之 ) end 
二 空 语句 二 tte 
<> n = RIAN >< KRM H<RUR> | odd <RUK> 
< 表达 式 > :一 [十 | 一 ] < 项 >(<< 加 减 运算 符 之 < 项 之 } 
<i> =< AF > (<RREARHH<AF>} 
<ayF> 11=<id>|<integer>|"(“<#UR>)' 
二 加 减 运算 符 二 :一 十 | 一 
<TR IE > :1=x|/ 
二 关系 运算 符 ::==|#|<|<=|>|>= 
去 条 件 语句 二 5 一 许 一 条 件 二 then 一 语句 二 
二 过 程 调用 语句 二 “| tt =call<id> 
二 当 型 循环 语句 > | +: =while 一 条 件 >do 一 语句 之 
<HR> +t =read ('<id>{,<id>} 9" 
去 写 语句 之 :1 一 Write (< 表达 式 之 { ,二 表达 式 之 }9 


其 中 用 到 的 EBNF 元 符号 含义 如 下 : 
。 <>: 用 尖 括 号 括 起 来 的 中 文字 表示 语法 构造 成 分 ,或 称 语法 单元 ;而 用 尖 括 号 括 
起 来 的 英文 字 表 示 一 类 词法 单元 。 
. n=, 表示 左 部 的 语法 单位 由 右 部 定义 ,可 读 作 ”* 定 义 为 ”。 
。 |: 表示 “或 ”, 即 多 选项 。 
。 {}: 用 花 括号 括 起 来 的 成 分 可 以 重复 0 次 到 任意 多 次 。 
。 0: 用 方 括号 括 起 来 的 成 分 为 任 选项 , 即 出 现 一 次 或 不 出 现 。 
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由 表 1.1 的 EBNF 描述 可 以 观察 到 : PL/0 程序 由 分 程序 组 成 ,分 程序 由 说 明 部 分 和 语 
句 组 成 。 说 明 部 分 包括 常量 说 明 、 变 量 说 明和 过 程 说 明 , 并 分 别 由 关键 字 const, var, 
procedure 开头 。 过 程 说 明 中 可 以 内 套 过 程 说 明 。PL/V/0 语法 整体 上 与 Pascal 的 语法 类 似 。 

PL/0 的 语句 有 赋值 语句 条件 语句 、 循 环 语 句 、 过 程 调 用 语句 、 读 语句 、 写 语句 和 复合 
语句 。 有 两 种 控制 转移 语句 : if 语句 和 while 语句 ,if 语句 无 else 部 分 。 复 合 语句 是 由 
begin 和 end 括 起 来 的 语句 序列 。L/O 语句 由 保留 字 read 和 write 开始 ,read 语句 一 次 可 为 
多 个 变量 读 入 数据, write 语句 一 次 可 输出 多 个 算术 表达 式 的 值 。 

PL/0 的 表达 式 有 关系 表达 式 和 算术 表达 式 两 类 : 控制 转移 语句 中 的 测试 条 件 是 关系 
表达 式 , 其 中 使 用 了 关系 运算 符 ; 算 术 表 达 式 使 用 整 型 运算 符 。 关 系 表 达 式 由 两 个 算术 表达 
式 的 比较 组 成 ,通过 6 个 关系 运算 进行 比较 。 算 术 表 达 式 由 整 型 常数 、 整 型 变量 以 及 常见 的 
算术 运算 符 组 成 。 算 术 表 达 式 还 可 以 出 现在 赋值 .1/O 语句 中 。 

PL/0 中 的 变量 是 简单 整 型 变量 , 需 在 变量 说 明 部 分 进行 说 明 , 但 无 须 给 出 数据 类 型 ， 
因为 只 有 整 型 变量 。 

最 后 ,PL/0 的 语句 序列 中 由 分 号 来 分 隔 语句 ,最 后 一 个 语句 之 后 可 以 没有 分 号 。 可 以 
有 空 语句 序列 。 

在 表 1.1 中 , 仅 出 现在 :: 二 右边 的 符号 均 为 词法 单元 , 即 单词 或 单词 符号 。PLV0 的 单 
词 可 分 为 5 个 大 类 : 保留 字 、 运 算 符 、 标 识 符 、 无 符号 整数 、 界 符 。 

保留 字 有 13 个 : 

const,var, procedur, begin,end,odd,if,then,call, while,do,read,write 

运算 符 有 11 个 ,分 别 为 : 4 个 整 型 算术 运算 符号 十 \ 一 、* 和 /,6 个 比较 运算 符号 去 、 
<=> >=. FM = VRE =, 

界 符 包括 (、)、,、; 和 .。 

无 符号 整数 二 integer 二 是 由 一 个 或 多 个 数字 组 成 的 序列 。 数 字 为 0,1,2,… ,9。 

标识 符 二 id 二 是 字母 开头 的 字母 数字 序列 。 字 母 包括 大 小 写 英 文字 母 : ab,…,z,A， 
B, Ze 


1.4.3 类 了 P-code 语言 


类 P-code 语言 是 PL/0 编译 程序 的 目标 语言 ,可 以 看 作 类 P-code 虚拟 机 的 汇编 语言 。 
类 P-code 虚拟 机 是 一 种 简单 的 纯 栈 式 结构 的 机 器 , 它 有 一 个 栈 式 存储 器 ,有 4 个 控制 寄存 
器 : 指令 寄存 器 i、 指令 地 址 寄存 器 p、 栈 项 寄存 器 t 和 基 址 寄存 器 b。 类 P-code 程序 运行 期 
间 的 数据 存储 和 算术 及 逻辑 运算 都 在 栈 项 进行 。 

类 P-code 虚拟 机 的 指令 格式 形 如 

FLA 


它 由 3 个 部 分 构成 ,其 含义 如 下 : 
F: 指令 的 操作 码 。 
L:， 若 起 作用 , 则 表示 引用 层 与 声明 层 之 间 的 层次 差 : 若 不 起 作用 , 则 置 为 0。 
A: 不 同 的 指令 含义 不 同 。 
类 P-code 虚拟 机 完整 的 指令 集合 见 表 1.2。 对 过 程 调用 相关 指令 更 详细 的 解释 参见 
9.4.2 W 
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表 1.2 类 了 P-code 虚拟 机 指令 系统 


指令 分 类 指令 格式 指令 功能 

INTOA 在 栈 顶 开辟 A 个 存储 单元 

过 程 调 用 相关 指令 OPR 00 结束 被 调用 过 程 , 返 回调 用 点 并 退 栈 
CALLA 调用 地 址 为 A 的 过 程 ,调用 过 程 与 被 调用 过 程 的 层 差 为 L 
INTOA 立即 数 A 存 人 zt 所 指 单元 ,z 加 1 

存 取 指令 LODLA HBB LABEH A 的 存储 单元 的 值 取 到 栈 项 ,t+ 加 1 
STOLA 将 栈 顶 的 值 存 人 层 差 为 工 、 偏 移 量 为 A 的 单元 ,z 减 1 
OPR 01 求 栈 顶 元 素 的 相反 数 ,结果 值 贸 在 栈 顶 

一 元 运算 和 比较 指令 
OPR 06 栈 顶 内 容 若 为 奇数 则 变 为 1 , 若 为 偶数 则 变 为 0 
OPR 02 次 栈 顶 与 栈 顶 的 值 相 加 ,结果 存 人 次 栈 顶 ,z 减 1 
OPR 03 次 栈 顶 的 值 减 去 栈 顶 的 值 , 结 果 存 放 次 栈 顶 ,z 减 1 

二 元 运算 指令 
OPR 0 4 次 栈 顶 的 值 乘 以 栈 顶 的 值 , 结 果 存 放 次 栈 顶 ,: 减 1 
OPR 05 次 栈 顶 的 值 乘 以 栈 顶 的 值 ,结果 存放 次 栈 顶 ,t 减 1 
OPR 08 次 栈 顶 与 栈 顶 内 容 若 相等 , 则 将 0 存 于 次 栈 顶 ,: 减 1 
OPR 09 次 栈 顶 与 栈 顶 内 容 若 不 相等 , 则 将 0 存 于 次 栈 顶 ,t 减 1 
OPR 0 10 次 栈 顶 内 容 若 小 于 栈 顶 , 则 将 0 存 于 次 栈 顶 ,t 减 1 

二 元 比较 指令 
OPR 0 11 次 栈 顶 内 容 若 大 小 于 等 于 栈 顶 , 则 将 0 存 于 次 栈 顶 ,t 减 1 
OPR 0 12 次 栈 顶 内 容 若 大 于 栈 顶 , 则 将 0 存 于 次 栈 顶 ,t 减 1 
OPR 0 13 次 栈 顶 内 容 若 小 于 等 于 栈 顶 , 则 将 0 存 于 次 栈 顶 ,t 减 1 
JMP 0A 无 条 件 转移 至 地 址 A 

转移 指令 
JPCOA 若 栈 顶 为 0, 则 转移 至 地 址 A,t 减 1 
OPR 0 14 栈 顶 的 值 输出 至 控制 台 屏 幕 ,t 减 1 

输入 输出 指令 OPR 0 15 控制 台 屏 幕 输出 一 个 换行 
OPR 0 16 从 控制 台 读 和 人 一行 输入 ,置信 栈 顶 ,+ 加 1 


1.4.4 PL/0 编译 程序 


PL/0 编译 程序 采用 单 遍 扫描 方式 的 编译 过 程 . 由 词法 分 析 程 序 、 语 法 语义 分 析 程序 以 
及 代码 生成 程序 3 个 独立 的 过 程 组 成 。PLV0 编译 程序 以 语法 语义 分 析 程序 为 核心 , 当 语法 
分 析 需 要 读 单词 时 就 调用 词法 分 析 程 序 ,而 当 

语法 语义 分 析 正 确 需 生成 相应 语言 成 分 的 目标 ”pL/0 程 序 一 | 语法 语义 | = 类 P-code 程 序 


代码 时 ,就 调用 代码 生成 程序 。PL/0 编译 程序 


的 组 织 结构 如 图 1. 20 所 示 。 


当 源 程序 编译 有 错时 ,PL/0 编译 程序 用 出 。 | 词法 分 析 程序 代码 生成 程序 


分 析 程 序 


错 处 理 程序 对 词法 和 语法 语义 分 析 遇 到 的 错误 图 1.20 PL/0 编译 程序 组 织 结构 
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给 出 在 源 程序 中 出 错 的 位 置 和 错误 性 质 。 当 源 程序 编译 正确 时 ,编译 程序 正常 结束 ,可 输出 
相应 的 类 P-code 目标 程序 。 
图 1.21 是 PL/0 编译 程序 对 图 1. 18 的 源 程序 编译 后 的 类 P-code 目标 程序 。 


(0) jmp 08 转向 主 程序 入 口 
(Djmp 02 转向 过 程 p 入 口 
(2) int 03 过 程 p 入 口 ， 为 过 程 p 开 辟 空 间 
(3) lod 13 取 变 量 b 的 值 到 栈 顶 
(4) lit010 取 常 数 10 到 栈 顶 
(5) opr 02 次 栈 顶 与 栈 项 相 加 
(6) sto 14 栈 顶 值 送 变量 c 中 
(7) opr 00 退 栈 并 返回 调用 点 的 下 一 条 指令 (16) 
(8)int0 5 主 程序 入 口 开辟 5 个 栈 空间 
(9) opr 0 16 从 命令 行 读 入 值 置 于 栈 顶 
(10) sto 03 将 栈 顶 值 存 入 变量 b 中 
(11) lod 03 将 变量 b 的 值 取 至 栈 顶 
(12) lit0 0 将 常数 值 0 进 栈 
(13) opr 09 次 栈 项 与 栈 项 是 否 不 等 
(14) jpe 0 24 相等 时 转 (24)( 条 件 不 满足 转 ) 
(15) cal02 调用 过 程 p 
(16) lit02 常数 值 2 进 栈 
(17) lod 04 将 变量 c 的 值 取 至 栈 顶 
(18) opr 04 次 栈 顶 与 栈 项 相 乘 (2*c) 
(19) opr 0 14 栈 项 值 输出 至 屏幕 
(20) opr0 15 换行 
(21) opr0 16 从 命令 行 读 取 值 到 栈 顶 
(22) sto 03 栈 项 值 送 变量 b 中 
(23)jmp 0 11 无 条 件 转 到 循环 入 口 (11) 
(24) opr 00 结束 退 栈 
图 1.21 类 P-code 目标 代码 


1.4.5 ”PL/0 语言 编译 系统 的 驱动 代码 


如 图 1. 16 所 示 ,PL/0 语言 编译 系统 包括 PL/0 编译 程序 和 类 P-code 解释 程序 ,其 驱动 
代码 为 附录 A 中 代码 的 主 函 数 main() 。main( 〇 函数 的 主体 框架 如 下 所 示 : 


int main() 


/* 打开 源 程序 文件 * / 


if 打开 源 程序 文件 成 功 { 
/* 初始 化 输出 文件 信息 / 
initO ; /* 初始 化 各 类 名 字 和 符号 信息 * / 
err=0; /* 初始 化 错误 数 * / 
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/* 初始 化 其 他 信息 * / 
/* 成 功 读 取 第 一 个 单词 * / 


/* 编译 整个 程序 体 对 应 的 一 分 程序 > * / 


/* 编译 过 程 未 成 功 结束 ,关闭 所 有 已 打开 的 文件 ,返回 * / 


A /* 编译 过 程 结 束 ,关闭 已 打开 的 输出 文件 * / 


if (sym ! 一 period) /* 当前 符号 不 是 程序 结束 符 '* / 
{ 
error(9) 5 /* 提示 9 号 出 错 信息 : 缺少 程序 结束 符 '* / 
} 
if (err 一 一 0) /* 未 发 现 程序 中 的 错误 * / 
{ 
interpret(); / * 调用 解释 程序 ,执行 所 产生 的 类 P-code 代码 * / 


printf("Can't open file! \n"); /* 打开 源 程序 文件 不 成 功 * / 


ante /* 关闭 已 打开 的 文件 ,成 功 返 回 * / 


PL/0 编译 程序 以 语法 语义 分 析 程 序 为 核心 ,在 分 析 过 程 中 , 它 不 断 地 调用 词法 分 析 程 
序 getsym() 获 取 下 一 个 单词 ,调用 代码 生成 程序 生成 类 P-code 代码 ,在 需要 报错 时 调用 
error() 函 数 。 语 法 语义 分 析 程 序 执行 一 种 自 上 而 下 的 分 析 过 程 ,采用 递归 下 降 分 析 / 翻 译 
子 程序 的 构造 方法 ,每 个 语法 单元 对 应 一 个 子 程序 。 语 法 单元 二 分 程序 二 对 应 的 子 程序 为 
block()。 上 面 代码 中 的 block() 是 最 顶层 的 过 分 程序 二 处 理 函 数 , 用 于 处 理 整个 程序 体 所 
对 应 的 二 分 程序 二 。 关 于 block() 函数 以 及 其 他 递归 子 程 序 的 构造 ,将 在 第 4 章 进一步 
讨论 。 

getsym() 实 现 基本 的 词法 分 析 功 能 ,用 于 获取 下 一 个 单词 。 第 3 章 将 会 涉及 getsym() 
实现 的 一 些 细节 。 

interpret() 用 于 解释 执行 类 P-code 程序 ,相当 于 实现 了 类 P-code 虚拟 机 。 它 采用 了 如 
下 数据 结构 ,从 中 可 以 了 解 类 P-code 虚拟 机 的 基本 结构 : 


运行 栈 int s[stacksize } /* stacksize: 对 应 数据 区 存储 单元 数 的 上 界 * / 
指令 寄存 器 struct instruction { 

enum fet f; / * 操作 码 * / 

int l; / * 引用 层 与 声明 层 的 层 差 * / 

int a; / * 因 不同 的 1 各 异 */ 


bis 
指令 地 址 寄存 器 int ps 
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基 址 寄存 器 int b; 

栈 顶 寄存 器 int t; 

虚拟 机 代码 段 struct instruction code[cxmax]; /* cxmax: 代码 区 指令 数 的 上 界 * / 

interpret() 顺 序 读 取 code 中 的 类 P-code 指令 逐条 解释 执行 。 不 同 指令 的 执行 结果 会 
以 不 同方 式 修改 运行 栈 s、 指 令 地 址 寄存 器 p、 基 址 寄存 器 b 以 及 栈 顶 寄存 器 t 的 状态 。 对 
照 图 1. 21 中 执行 类 P-code 目标 代码 的 例子 ,有 助 于 对 interpret() 代 码 的 理解 。 

对 于 一 些 与 运行 时 存储 组 织 相关 的 类 P-code 指令 ( 表 1. 2 中 的 存 取 指令 和 过 程 调用 相 


关 指 令 ) ,其 执行 语义 略微 复杂 一 些 ,将 在 第 9 章 作 进一步 的 解释 。 然 而 ,对 照 图 1. 21 中 的 
例子 ,读者 也 不 难 理解 它们 的 基本 含义 。 
练 “ 习 


1. 解释 下 列 术语 : 

编译 程序 , 源 程序 ,目标 程序 ,编译 程序 的 前 端 ,后 端 和 遍 

2. 编译 程序 有 哪些 主要 构成 成 分 ? 各 自 的 主要 功能 是 什么 ? 

3. 什么 是 解释 程序 ? 它 与 编译 程序 的 主要 不 同 是 什么 ? 

4. 对 下 列 错 误 信 息 ,请 指出 可 能 是 编译 的 哪个 阶段 (词法 分 析 、 语 法 分 析 、 语 义 分 析 、 代 
码 生成 ) 报 告 

(1) else 没有 匹配 的 if, 

(2) 数组 下 标 越界 。 

(3) 使 用 的 函数 没有 定义 。 

(4) 在 数 中 出 现 非 数 字 字 符 。 

5. 通过 1.4 节 的 介绍 以 及 对 附录 A 中 源码 的 初步 阅读 ,要 求 读者 : 

(1) 熟悉 PL/0 编译 程序 的 源 语 言 和 目标 语言 ; 

(2) 了 解 PL/0 编译 程序 的 基本 结构 ; 

(3) 了 解 PL/0 语言 编译 系统 驱动 程序 的 基本 结构 。 


> Bs 


第 2 章 文法 和 语言 


一 个 程序 设计 语言 是 一 个 记号 系统 ,如 同 自然 语言 一 样 , 它 的 完整 定义 应 包括 语法 和 语 
义 两 个 方面 。 所 谓 一 个 语言 的 语法 是 指 一 组 规则 ,用 它 可 以 形成 和 产生 一 个 合适 的 程序 。 
目前 广泛 使 用 的 手段 是 上 下 文 无 关 文 法 , 即 用 上 下 文 无 关 文 法 作为 程序 设计 语言 语法 的 描 
述 工 具 。 语 法 只 是 定义 什么 样 的 符号 序列 是 合法 的 ,与 这 些 符 号 的 含义 毫 无 关系 ,比如 对 于 
一 个 Pascal 程序 来 说 ,一 个 上 下 文 无 关 文法 可 以 定义 符号 串 A :二 B 十 C 是 一 个 合乎 语法 的 
赋值 语句 ,而 A :一 B 十 就 不 是 。 但 是 ,如 果 也 是 实 型 的 ,而 C 是 布尔 型 的 ,或 者 BC 中 任何 
一 个 变量 没有 事先 说 明 , 则 A t= BC 仍 不 是 正确 的 程序 ,也 就 是 说 程序 结构 上 的 这 种 特 
点 一 一 类 型 匹配 变量 作用 域 等 是 无 法 用 上 下 文 无 关 手 段 检查 的 ,这 些 工作 属于 语义 分 析 工 
作 。 程 序 设计 语言 的 语义 常常 分 为 两 类 : 静态 语义 和 动态 语义 。 静 态 语义 是 一 系列 限定 规 
则 ,并 确定 哪些 合乎 语法 的 程序 是 合适 的 ;动态 语义 也 称 作 运 行 语义 或 执行 语义 ,表明 程序 
要 做 些 什么 ,要 计算 什么 。 

疗 明 语法 的 一 个 工具 是 文法 ,这 是 形式 语言 理论 的 基本 概念 之 一 。 本 章 将 介绍 文法 和 
语言 的 概念 ,重点 讨论 上 下 文 无 关 文 法 及 其 句 型 分 析 中 的 有 关 问 题 。 

疗 明 语义 要 比 疙 明 语 法 困难 得 多 ,尽管 形式 语义 学 的 研究 已 取得 重大 进展 ,但 是 仍 没有 
哪 一 种 公认 的 形式 系统 可 用 来 自动 构造 出 正确 的 编译 系统 。 本 书 不 对 形式 语义 学 进行 
介绍 。 


2.1 文法 的 直观 概念 


在 给 出 文法 和 语言 的 形式 定义 之 前 , 先 直 观 地 认识 一 下 文法 的 概念 。 

当 我 们 表述 一 种 语言 时 ,无 非 是 说 明 这 种 语言 的 句子 ,如 果 语 言 只 含有 有 穷 多 个 句子 ， 
则 只 需 列 出 句子 的 有 穷 集 就 行 了 ,但 对 于 含有 无 穷 多 个 句子 的 语言 来 讲 , 存 在 着 如 何 给 出 它 
的 有 穷 表示 的 问题 。 

以 自然 语言 为 例 , 人 们 无 法 列 出 全 部 句子 ,但 是 人 们 可 以 给 出 一 些 规则 ,用 这 些 规则 来 
说 明 ( 或 者 定义 ) 句 子 的 组 成 结构 ,如 * 我 是 大 学 生 ? 是 汉语 的 一 个 句子 。 汉 语句 子 可 以 由 主 
语 后 随 谓语 而 成 ,构成 谓语 的 是 动词 和 直接 宾语 ,采用 第 1 章 使 用 过 的 EBNF 来 表示 这 种 
句子 的 构成 规则 : 


《句子 ): = EGR) GBB) 
(ER): = RiR) | (名 词 》 
ARI) =R | | ft 

(名 词 王 明 | 大 学 生 | 工 人 | 英语 
(谓语 ): := (动词 直接 宾语 》 
《动词 ): :一 是 | 学 习 

(直接 宾语 ): :二 (代词 )| (名 词 》 
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“我 是 大 学 生 ” 的 构成 符合 上 述 规则 ,而 “我 大 学 生 是 ”不 符合 上 述 规则 , 即 它 不 是 句子 。 
这 些 规则 成 为 判别 句子 结构 合法 与 否 的 依据 , 换 句 话说 ,将 这 些 规 则 看 成 是 一 种 元 语言 ,用 
它 描 述 汉 语 。 这 里 仅仅 涉及 汉语 句子 的 结构 描述 。 这 样 的 语言 描述 称 为 文法 。 

一 旦 有 了 一 组 规则 以 后 ,可 以 按照 如 下 方式 用 它们 去 推导 或 产生 句子 。 开 始 去 找 : :一 
左 端的 带 有 《句子 ?的 规则 并 把 它 表 示 成 : :三 右 端的 符号 串 , 这 个 动作 表示 成 :〈 句 子 ) 雯 主 
语 》( 谓 语 , 然 后 在 得 到 的 串 ( 主 语 )( 谓 语 ? 中 ,选取 《主语 ?或 (谓语 》, 再 用 相应 的 规则 : = Ar 
端 代替 之 .例如 ,选取 了 (主语 ) ,并 采用 规则 (主语 ): :二 (代词 ), 那 么 得 到 : (FEI) GIB) > 
《代词 )( 谓 语 ) ,重复 做 下 去 ,得 到 句子 “我 是 大 学 生 ” 的 全 部 动作 过 程 如 下 : 

(AF) = EIR) IB) 

=< (Ria) iB) 

= 我 (谓语 ) 

= 我 (动词 )( 直 接 宾语 》 
= 我 是 (直接 宾语 》 

= 我 是 (名 词 ) 

= 我 是 大 学 生 


符号 = 的 含义 是 ,使 用 一 条 规则 ,代替 其 左 端的 某 个 符号 ,产生 其 右 端 的 符号 串 。 

显然 ,按照 上 述 办 法 ,不 仅 生 成 “我 是 大 学 生 ” 这 样 的 句子 ,还 可 以 生成 “ 王 明 是 大 学 生 ”， 
“ 王 明 学 习 英 语 ”,“ 我 学 习 英 语 ”,“ 他 学 习 英 语 ”,“ 你 是 工人 ”,“ 你 学 习 王 明 ” 等 许多 其 他 句子 。 
事实 上 ,使 用 文法 作为 工具 ,不 仅 是 为 了 严格 地 定义 句子 的 结构 ,也 是 为 了 用 适当 条 数 的 规则 
把 语言 的 全 部 句子 描述 出 来 ,可 以 说 文法 是 以 有 穷 的 集合 刻画 无 穷 的 集合 的 一 个 工具 。 


2.2 符号 和 符号 串 


正如 英语 是 由 句子 组 成 的 集合 ,而 句子 又 是 由 单词 和 标点 符号 组 成 的 序列 那样 ,程序 设 
计 语 言 Pascal 或 C 语言 是 由 一 切 Pascal 程序 或 C 程序 所 组 成 的 集合 ,而 程序 是 由 类 似 if、 
begin end 的 符号 以 及 字母 和 数字 这 样 一 些 基 本 符号 所 组 成 ,从 字面 上 看 ,每 个 程序 都 是 一 
个 “基本 符号 ” 串 ,假设 有 一 个 基本 符号 集 ,那么 Pascal 或 C 语言 可 看 成 是 在 这 个 基本 符号 
集 上 定义 的 , 按 一 定 规则 构成 的 一 切 基 本 符号 串 组 成 的 集合 。 为 了 给 出 语言 的 形式 定义 , 首 
先 讨论 符号 和 符号 串 的 有 关 概 念 。 

1. 字母 表 

字母 表 是 元 素 的 非 空 有 穷 集合 ,字母 表 中 的 元 素 称 为 符号 ,因此 字母 表 也 称 为 符号 集 。 
不 同 的 语言 可 以 有 不 同 的 字母 表 , 例 如 汉语 的 字母 表 中 包括 汉字 ,数字 及 标点 符号 等 。C 语 
言 的 字母 表 由 字母 ,数字 EFES char struct if do 之 类 的 保留 字 组 成 。 

2. 符号 串 

由 字母 表 中 的 符号 组 成 的 任何 有 穷 序 列 称 为 符号 串 ,例如 001110 是 字母 表 3={0,1} 
上 的 符号 串 ,又 如 字母 表 A={a,b,c} 上 的 一 些 符号 串 有 a,b,c,ab,aaca。 在 符号 串 中 ,符号 
的 顺序 是 很 重要 的 ,例如 ,符号 串 ab 就 不 同 于 ba,abca 和 aabe 也 不 同 。 可 以 使 用 字母 表示 
符号 串 , 如 xz 一 STR 表示 “xz 是 由 符号 S、T 和 下 ,并 按 此 顺序 组 成 的 符号 串 ”。 

如 果 某 符号 串 xz PAm 个 符号 , 则 称 其 长 度 为 m KRH |x| =m, 4 001110 的 长 度 
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是 6。 

允许 空 符 号 串 , 即 不 包含 任何 符号 的 符号 串 , 用 < 表示 ,其 长 度 为 0, 即 |s|=0。 

下 面 介绍 有 关 符 号 串 的 一 些 运算 。 

D 符号 串 的 头 尾 , 回 有 头 和 固有 尾 

如 果 < 二 xy 是 一 符号 串 ,那么 工 是 = 的 头 ,y> 是 = 的 尾 , 如 果 工 是 非 空 的 ,那么 > 是 固有 
尾 ;同样 ,如 果 y 非 空 ,那么 xz 是 固有 头 。 设 < 二 abc, 那 么 > 的 头 是 e ,a,ab 和 abc; 除 abc 外 ， 
其 他 都 是 固有 头 ;z 的 尾 是 e,c,bc 和 abc;z 的 固有 尾 是 e,c 和 be. 

当 我 们 对 符号 = ary 的 头 感 兴趣 而 对 其 余部 分 不 感 兴趣 时 ,可 以 采用 省 略 写法 : = 一 
Zz"… ;如果 只 是 为 了 强调 z 在 符号 串 > 中 的 某 处 出 现 , 则 可 表示 为 : x 二 …x…; 符 号 1 是 符号 
串 = 的 第 一 个 符号 , 则 表示 为 = 二 4…。 

2) 符号 串 的 连接 

Bar My 是 符号 串 , 它 们 的 连接 zy 是 把 > 的 符号 写 在 z 的 符号 之 后 得 到 的 符号 串 。 
例如 , 设 zx=ST,y=abu, 则 它们 的 连接 ry=STabu, F H |r| =2,|yl=3,|ryl=5. MF 
< 的 含义 ,显然 有 ez 一 ze 一 工 。 

3) FES BND RE 

Bear FERS A oe 自身 连接 n 次 得 到 符号 串 z, 即 x 二 zx…zz, 称 为 符号 串 x WIRE 
写作 = 局, 即 把 符号 串 zx 相继 地 重复 写 nn KK, Ser Sra Sarra 二 XxX 分 别 对 应 于 
n=0,1,2 和 3, 例 如 , 设 +=AB, 则 x° =e, x! = AB, x° =ABAB, x° = ABABAB, XF n>0, 
A asar =ar, 

4) 符号 串 集合 

若 集合 A 中 的 一 切 元 素 都 是 某 字 母 表 上 的 符号 串 , 则 称 A 为 该 字母 表 上 的 符号 串 集 
合 。 两 个 符号 串 集合 A AB 的 乘积 定义 如 下 : AB={zylzEA4A 且 yEB}, 即 AB 是 满足 
并 属于 A,y 属 于 再 的 所 有 符号 串 zy 所 组 成 的 集合 。 例 如 , 若 A={a,b},B={c,d}, 则 集合 
AB={ac,ad,bc,bd}。 因 为 对 任意 符号 串 x H er=re=xr, MIH {e} A5Ale) 5A. 

指定 字母 表 卫 之 后 ,可 用 表示 上 的 所 有 有 穷 长 的 串 的 集合 。 例 如 ,如 ={0,1})， 
则 了 = 一 {s,0,1,00,01,10,11,000,001.010,…} ,也 可 表示 为 字母 表 的 方 寒 形 式 ， 

S =F US US US 
S RHA SHAE., SHS USS" RAST MERAA. BRA 
z=} Us 
3'!= 33* =3°3 

X 具有 可 数 的 无 穷 数 量 的 元 素 。 使 用 一 般 集合 论 的 表示 符号 : Ha HEL 中 的 元 素 ， 

则 表示 为 xEY* ,否则 zg5* 。 对 于 所 有 的 5S, 有 ee€3*。 


2.3 文法 和 语言 的 形式 定义 


这 里 使 用 2. 2 节 所 引用 的 术语 ,将 2.1 节 中 描述 汉语 句子 的 规则 加 以 形式 化 ,然后 给 出 
文法 和 语言 的 形式 定义 。 
规则 ,也 称 重 写 规则 产生 式 或 生成 式 ,是 形 如 wp 或 ::=B 的 (c,8) 有 序 对 ,其 中 称 
为 规则 的 左 部 ,8 称 作 规则 的 右 部 。 这 里 使 用 的 符号 一 (: 二) 读 作 “ 定 义 为 ”。 例如 Aa BE 
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TESA 定义 为 a”。 也 把 它 说 成 是 一 条 关于 A 的 规则 (产生 式 ) 。 

定义 2.1 文法 G 定 义 为 四 元 组 (Vy ,Vr.P,S)。 

其 中 Vs 为 非 终 结 符 (或 语法 实体 ,或 变量 ) 集 ;V+ 为 终结 符 集 ;P 为 规则 (a->P) 的 集合 ， 
aE (Vy UV) 且 至 少 包含 一 个 非 终结 符 ,BE (Vn UV)" Vn Vr 和 PP SESE SS A HE. 
S 称 作 识别 符 或 开始 符 , 它 是 一 个 非 终 结 符 , 至 少 要 在 一 条 规则 中 作为 左 部 出 现 。 

Vy 和 Vr 不 含 公共 的 元 素 , 即 Vw 几 Vt 二 2。 

通常 用 V 表示 Vs UVr V 称 为 文法 G 的 字母 表 或 字汇 表 。 

例 2.1 ABU: G=(Vy Vrs P.S) FLA .Vy=(S}.Vr=(0.1},P={S>0S1,S>01}, XE, 
非 终结 符 集中 只 含 一 个 元 素 S; 终 结 符 集 由 两 个 元 素 0 和 1 组 成 ;有 两 条 产生 式 ; 开 始 符 是 S。 

例 2.2 ”有 文法 G=(Vy.Vr-P.S). 

HP Vy = RATE BE ,数字 ),Vr 一 {a,b,c,…，,xyy,z,0,1,…，,9)} 

P={ 《标识 符 ) 一 (字母 7 
《标识 符 ) 一 (标识 符 )( 字 母 》 
《标识 符 ) 一 (标识 符 )( 数 字 》 
(字母 ;一 a 
(字母 ;> 一 b 


(FEE) 
《数字 ?一 0 
《数字 ) 一 1 


(数字 ) 一 9} 
S 二 (标识 符 》 
这 里 ,使 用 尖 括 号 括 起 非 终结 符 。 
很 多 时 候 , 不 用 将 文法 G 的 四 元 组 显 式 地 表示 出 来 ,而 只 将 产生 式 写 出 。 一 般 约定 ,第 
一 条 产生 式 的 左 部 是 识别 符 ;用 尖 括 号 括 起 来 的 是 非 终 结 符 , 不 用 尖 括 号 括 起 来 的 是 终结 
符 , 或 者 用 大 写字 母 表示 非 终结 符 , 小 写字 母 表 示 终 结 符 。 另 外 ,也 有 一 种 习惯 写法 ,将 G 
写成 GLS], 其 中 S 是 识别 符 , 例 2.1 还 可 以 写成 
G: S>0S1 
S—01 
或 
GLS]: S>0S1 
S—01 
为 定义 文法 所 产生 的 语言 ,还 需要 引入 推导 的 概念 , 即 定义 V* 中 的 符号 之 间 的 关系 : 直接 
HERS KEH nS DEES AKEH n(n 0) HERS 。 


定义 2.2 设 a=>B 是 文法 G 二 (Vs,Vr,P,S) 的 规则 (或 说 是 P 中 的 一 个 产生 式 ),y 和 
ORV 中 的 任意 符号 ,车 有 符号 串 vw 满足 
v = Yyað, w= 7B6 
E 22 6 


则 说 v( 应 用 规则 a 一 B) 直接 产 生 w, 或 说 ww 是 v 的 直接 推导 ,或 说 w 直接 归 约 到 wv, 记 作 
vw. 

例如 ,对 于 例 2. 1 的 文法 G, 可 以 给 出 直接 推导 的 一 些 例子 。 

(1) v= 二 0S1,tw 二 0011, 直 接 推导 : 0S1 =0011, 使 用 的 规则 : S01, 这 里 y=0,0=1, 

(2) v= 二 S,w 二 0S1, 直 接 推导 : S -=0S1, 使 用 的 规则 : S-~0S1, 这 里 y=e,6=e。 

(3) v=0S1,w=00S11, 直接 推导 : 0S1 =00S11, 使 用 的 规则 : S 一 0S1, 这 里 y=0, 
6=1。 

对 于 例 2. 2 的 文法 G, 直 接 推 导 的 例子 如 下 : 

A) v= (PRRI) w= (标识 符 ) (字母 ) ,直接 推导 :《〈 标 识 符 ) 雯 标识 符 )( 字 母 ), 使 用 
的 规则 :《〈 标 识 符 ) 一 (标识 符 )( 字 母 ,这 里 y 一 9 一 e。 

(2) v= 二 (标识 符 ) (字母 ;( 数 字 ) ,zw 一 《字母 (字母 (数字 ,直接 推导 : (标识 符 ) (字母 》 
OBE) SARE SRE) (数字 ), 使 用 的 规则 :〈 标 识 符 ) 一 (字母 ), 这 里 y= 0, = (HED 
BF). 

(3) v=abe( RF) ,w= 二 abc5 ,直接 推导 : abc( 数 字 =abc5 ,使 用 的 规则 :《〈 数 字 ? 一 5, 这 
里 y=abc.d=e, 

定义 2.3 如果 存 在 直接 推导 的 序列 : 

v= w Pw) Dw: >" Sw, = wln > 0) 
则 称 "推导 出 (产生 )au( 推 导 长 度 为 2 ,或 称 w IAB v IE v Sw, 

定义 2.4 FAV Sw. v=w. MICE v Sw. 

例如 ,对 例 2. 1 的 文法 ,存在 直接 推导 序列 v=0S1 300S11 30008111 =00001111 =w, 
即 0S1 00001111, ta" id fE 0S1 00001111, 

对 例 2. 2 的 文法 ,存在 直接 推导 序列 v= CREE) PR EE) BCE) SK SEE) CBSE) => 
2A rl =w, BRIE S xl thai fe RA) S21, 

定义 2.5 设 GLS] 是 一 个 文法 ,如 果 符 号 串 x 是 从 识别 符号 推导 出 来 的 , 即 有 S Se, 
Wa 是 文法 GLS] 的 句 型 。 若 zx 仅 由 终结 符号 组 成 , 即 S Sa, EVE WR x A 
GLS] 的 句子 。 

例如 ,S.0S1.000111 都 是 例 2. 1 的 文法 G 的 句 型 ,其 中 000111 是 G 的 句子 。!( 标 识 
符 )( 字 母 ) (字母 (数字 ) .al 等 都 是 例 2. 2 文法 G 的 句 型 ,其 中 al 是 G 的 句子 。 

定义 2.6 文法 G 所 产生 的 语言 定义 为 集合 {z1S Sr JEP S 为 文法 识别 符号 , 且 
ZXEVi)。 可 用 L(G) 表 示 该 集合 。 

从 定义 2.6 看 出 两 点 : 第 一 ,符号 串 z 可 从 识别 符号 推出 , 即 x 是 句 型 。 第 二 ,xz 仅 由 
终结 符号 组 成 , 即 x 是 文法 G 的 句子 。 也 就 是 说 ,文法 描述 的 语言 是 该 文法 一 切 句 子 的 集 
合 。 考 虑 例 2. 1 的 文法 G, 有 两 条 产生 式 ( 规 则 ): (1)S-~0S1 和 (2)S 一 01, 通 过 对 第 一 个 产 
生 式 使 用 ”一 1 次 ,然后 使 用 第 二 个 产生 式 一 次 ,得 到 

S=0S1=00S11 => =" S 1™ =o"1" 

是 不 是 L(G) 中 的 元 素 仅 是 这 样 的 串 (0"1")? 是 的 ,这 可 以 由 下 面 的 讨论 证 得 。 在 使 用 
了 第 二 个 产生 式 后 ,发 现 句 型 中 S 的 个 数 减 少 了 一 个 。 每 次 使 用 第 一 个 产生 式 之 后 ,S 的 左 
端 多 一 个 0, 右 端 多 一 个 1,S 的 个 数 不 变 。 因 此 ,使 用 了 S01 之 后 ,就 再 也 没有 S 留 在 结 
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果 串 中 了 。 由 于 两 个 产生 式 都 是 以 S 为 左 端 , 所 以 为 了 生成 句子 , 仅 能 按 下 列 次 序 使 用 产 
ER: 使 用 第 一 个 产生 式 若干 次 ,然后 使 用 第 二 个 产生 式 。 因 此 L(G) 二 {0"1"|n 宇 1)。 

例 2. 2 的 文法 G 的 句子 是 字母 字符 打头 的 .字母 字符 和 数字 字符 构成 的 串 。 这 就 是 程 
序 设计 语言 中 用 于 表示 名 字 的 标识 符 。 

例 2.3 设 G 一 (VN,Vr,P,S),VN 一 {S,B,E},Vr 一 {a,0ve},P 由 下 列 产生 式 组 成 : 

(1) S+aSBE 

(2) S*aBE 

(3) EB>BE 

(4) aB—>ab 

(5) bB—>bb 

(6) bE—>be 

(7) eEee 

例 2.1 和 例 2. 2 都 是 较 简单 的 文法 的 例子 ,比较 容易 确定 哪些 符号 串 可 以 推导 出 来 , 哪 
些 不 能 。 一 般 说 来 ,确定 文法 将 产生 什么 集合 可 能 是 很 困难 的 ,不 过 描述 程序 设计 语言 的 文 
法 还 是 较 容易 确定 其 句子 的 形式 的 。 现 在 分 析 例 2. 3 产生 的 句子 。 

首先 证 明 ,对 每 一 个 三 1,L(G) 含 有 句子 ab"e" ,因为 能 使 用 产生 式 (1)n 一 1 次 ,得 到 
推导 序列 : S a" SCBEY" ,然后 使 用 产生 式 (2) 一 次 ,得 到 ; S Sa" (BE). WIAA 
a" (BE)" 继续 推导 ,总 是 对 EB 使 用 产生 式 (3) 的 右 部 进行 替换 ,而 最 终 在 得 到 的 串 中 ,所 有 
的 B 都 先 于 所 有 的 E。 例如 ,车 n=3,aaaBEBEBE >aaaBBEEBE =aaaBBEBEE > 
aaaBBBEEE。 即 有 : S *>a"B"E". 

接着 ,使 用 产生 式 (4) 一 次 ,得 到 S 二 abB"-1E" ,然后 使 用 产生 式 (5)n 一 1 次 得 到 ， 
S 名 a"b"E" ,最 后 使 用 产生 式 (6) 一 次 ,使 用 产生 式 (7)n 一 1 次 ,得 到 : S Sa"b"e", 

也 能 证 明 , 对 于 三 1, 串 a%"e" 是 唯一 形式 的 终结 符号 串 。 在 从 S 开始 的 任何 推导 中 ， 
在 未 使 用 产生 式 (2) 之 前 ,是 不 能 使 用 产生 式 (4)、(5)、(6) 或 (7) 的 ,因为 从 (4) 到 (7) 的 每 一 
个 产生 式 的 左 端 都 要 求 BRAE 的 左边 直接 有 一 个 终结 符 。 使 用 产生 式 (2) 之 前 ,所 有 的 
句 型 都 是 由 多 个 a 跟 以 一 个 S ,然后 跟 以 与 a 同样 多 个 B 和 EE 组成。 使 用 产生 式 (2) 之 后 ， 
对 于 n 宇 1, 句 型 就 由 个 4. 后面 跟 某 种 次 序 的 mn 个 B 和 nn 个 EE 组 成 ,因为 没有 S 出 现在 句 
型 中 了 ,所 以 以 后 的 推导 中 不 可 再 使 用 产生 式 (1) 和 (2) 了 。 从 S 推导 出 的 串 的 特点 是 ,前 
面部 分 全 部 是 终结 符 而 后 面部 分 全 部 是 非 终 结 符 。 在 使 用 产生 式 (3) 到 (7) 中 任何 一 个 之 
后 ,推导 出 的 串 仍 具有 这 种 特点 。 而 产生 式 (4) 到 (7) 只 能 在 终结 符 和 非 终结 符 的 边界 上 使 
用 ,它们 的 作用 是 把 一 个 B 变 为 5 或 把 一 个 EE 变 为 e。 产 生 式 (3) 的 使 用 可 把 B 移 到 左边 ， 
把 EE 移 到 右边 。 为 得 到 终结 符号 串 ,在 任何 EE 被 转换 成 e 之 前 ,所 有 的 B 都 必须 在 终结 符 
和 非 终 结 符 接口 处 被 转换 为 了 5。 否则 假设 在 所 有 的 B 转换 到 6b 之 前 ,把 一 个 巨 转 换 到 e。 这 
时 推导 出 的 串 可 表示 为 wbiea ,其 中 i<n,a 是 由 B 和 EE 组 成 的 串 , 接 着 进行 推导 时 ,只 有 产 
生 式 (3) 和 (7) 可 以 使 用 。(3) 用 在 非 终 结 符 中 ,(3) 只 能 重新 安排 a 中 的 B 和 EE, 但 不 能 删除 
任何 B。 产 生 式 (7) 用 于 终结 符 和 非 终 结 符 间 的 交换 处 .能 把 转换 为 e, 但 最 后 一 个 B 是 
最 左 非 终结 符 。 没 有 产生 式 能 改变 这 个 B。 即 永远 无 法 推导 出 终结 符号 串 , 因 此 所 做 的 假 
设 是 不 成 立 的 ,结论 只 能 是 : 在 任何 EE 被 转换 为 e 之 前 ,所 有 的 B 都 必须 在 终结 符 和 非 终 结 
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符 之 间 的 接口 处 转换 成 5, 后 面 的 推导 都 是 在 形 为 a" BBE EWP LAES, BI a"b"e" 是 仅 
可 能 推导 出 的 串 。 

ite L(G) = {a"b"e" |n 宇 1}。 

定义 2.7 若 L(G1)==L(G2), 则 称 文法 G1 和 G2 是 等 价 的 。 

例如 文法 GLA]: 

A>OR 

A>01 

R>Al 
和 例 2. 1 的 文法 等 价 。 


2.4 文法 的 类 型 


自从 乔 姆 斯 基 (Chomsky) 于 1956 年 建立 形式 语言 的 描述 以 来 ,形式 语言 的 理论 发 展 很 
快 。 这 种 理论 对 计算 机 科学 有 着 深刻 的 影响 ,特别 是 对 程序 设计 语言 的 设计 、 编 译 方法 和 计 
算 复 杂 性 等 方面 更 有 重大 的 作用 。 

乔 姆 斯 基 把 文法 分 成 4 种 类 型 , 即 0 型 .1 型 .2 型 和 3 型 。 这 几 类 文法 的 差别 在 于 对 产 
生 式 施加 不 同 的 限制 。 

设 G=(VN,Vr,P,S) ,如 果 它 的 每 个 产生 式 -8 是 这 样 一 种 结构 : a€ (Vy UV)” H. 
至 少 含有 一 个 非 终 结 符 , 而 BE(VNUVr) , 则 G 是 一 个 0 型 文法 。 

0 型 文法 也 称 短语 文法 。 一 个 非常 重要 的 理论 结果 是 ,0 型 文法 的 能 力 相 当 于 图 灵机 
(Turing machine)。 或 者 说 ,任何 0 型 语言 都 是 递归 可 枚 举 的 ;反之 ,递归 可 枚 举 集 必定 是 
一 个 0 型 语言 。 

对 0 型 文法 产生 式 的 形式 作 某 些 限 制 , 以 给 出 1 型 .2 型 和 3 型 文法 的 定义 。 

设 G=( Vn,Vrt,P,S) 为 一 个 文法 ,车 PP 中 的 每 一 个 产生 式 a 一 8 均 满 足 |B| 宇 la| ,仅仅 
Se 除外 , 则 文法 G 是 1 型 或 上 下 文 有 关 的 (context-sensitive) 。 

例 2. 3 的 文法 是 上 下 文 有 关 的 。 同 样 , 例 2.1 和 例 2. 2 的 文法 也 是 上 下 文 有 关 的 。 

在 有 些 定义 中 ,将 上 下 文 有 关 文 法 的 产生 式 的 形式 描述 为 aAas 一 mPas ,其 中 mso 和 有 
都 在 (Vs UVr) 中 ( 即 在 V* 中 ),Bze,A 在 Vw 中 。 这 种 定义 与 前 面 的 定义 等 价 。 但 它 更 能 体 
现 * 上 下 文 有 关 ” 这 一 术语 ,因为 只 有 A 出 现在 mw 和 a 的 上 下 文中 , 才 允 许 用 pB 取 代 A。 

设 G=(VN,Vr,P,S), 若 尸 中 的 每 一 个 产生 式 a 一 Bp 满足: a 是 一 个 非 终 结 符 ,BE Vn U 
Vr)” , 则 此 文法 称 为 2 型 的 或 上 下 文 无 关 的 (context-free)。 有 时 将 2 型 文法 的 产生 式 表示 
为 AB 的 形式 ,其 中 AEV,, 也 就 是 说 用 8B 取代 非 终 结 符 A 时 ,与 A 所 在 的 上 下 文 无 关 ， 
因此 取 名 为 上 下 文 无 关 。 

例 2.1 和 例 2. 2 中 的 文法 都 是 上 下 文 无 关 的 。 下 面 再 给 出 一 个 例子 ( 例 2. 4) ,例子 中 
的 文法 G 是 上 下 文 无 关 文法 ,G 的 语言 是 由 相同 个 数 的 a Mb 所 组 成 的 {a,5b)" 上 的 串 。 

例 2.4 G=({S,A,B},{a,5},P,S), 其 中 PP 由 下 列 产生 式 组 成 : 

S—>aB 
A > bAA 
S —> bA 
EE 


B —>b 
A—>a 
B — bS 
A —aS 
B —> aBB 
有 时 ,为 书写 简洁 , 常 把 相同 左 部 的 产生 式 , 形 如 
A 一 am 
A>a 
Aa, 
缩写 为 
4 一 |a || a, 
这 里 的 元 符号 | 读 做 “或 ”。 
例 2.4 的 P 可 写 为 
S 一 aB | bA 
A —> a | aS | bAA 
B —> b | bS | aBB 
设 G=(Vw,Vr,P,5), 若 P 中 的 每 一 个 产生 式 的 形式 都 是 A 一 aB 或 A 一 a, 其 中 A 和 
B 都 是 非 终 结 符 ,a€E Vi , 则 G 是 3 型 文法 或 正规 文法 。 
例 2.5 文法 G=({S,A,B},{0,1),P,S), 其 中 由 下 列 产生 式 组 成 ; 
S+0A 
S 一 1B 
S 一 0 
4 一 04 
4A 一 0S 
4 一 1B 
B->1B 
B>1 
B—0 
显然 G 是 正规 文法 。 
4 种 文法 类 型 的 定义 是 逐渐 增加 限制 的 ,因此 每 一 种 正规 文法 都 是 上 下 文 无 关 的 ,每 一 
种 上 下 文 无 关 文 法 都 是 上 下 文 有 关 的 ,而 每 一 种 上 下 文 有 关 文法 都 是 0 型 文法 。 称 0 型 文 
法 产生 的 语言 为 0 型 语言 。 上 下 文 有 关 文 法 、 上 下 文 无 关 文 法 和 正规 文法 产生 的 语言 分 别 
称 为 上 下 文 有 关 语 言 、 上 下 文 无 关 语言 和 正规 语言 。 


2.5 上 下 文 无 关 文 法 及 其 语法 树 


上 下 文 无 关 文法 有 足够 的 能 力 描述 现今 程序 设计 语言 的 语法 结构 ,如 描述 算术 表达 式 、 
描述 各 种 语句 等 。 
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例 2.6 KH G=CE}.{+,*.i0,)}.P.E) KPH: 
E>i 

E>E+E 

E>E*E 

E>(E) 


这 里 的 非 终结 符 E ZN RGA RIGS ,i 表示 程序 设计 语言 中 的 变量 。 该 文法 定义 了 ( 描 
述 了 ) 由 变量 、 十 、* (和 ) 组 成 的 算术 表达 式 的 语法 结构 , 即 : 


(1) 变量 是 算术 表达 式 ， 

(2) 若 E, Al E, 是 算术 表达 式 , 则 E +E, Ey * Es 和 (Ei) 也 是 算术 表达 式 。 
描述 一 种 简单 赋值 语句 的 产生 式 为 

《赋值 语句 ) 一 i :二 EE 

描述 条 件 语句 的 文法 片段 为 


《条件 语句 ) 一 if( 条 件 )then( 语 句 )| 
if( 条 件 )then( 语 句 )else( 语 句 》 


因此 我 们 关心 上 下 文 无 关 文 法 的 句子 分 析 和 分 析 方 法 的 研究 。 本 书 的 后 面 章 节 中 ,对 


“文法 ”一 词 若 无 特别 说 明 , 则 均 指 上 下 文 无 关 文 法 。 


在 前 面 提 到 了 句 型 .推导 等 概念 ,现在 介绍 一 种 描述 上 下 文 无 关 文 法 的 句 型 推导 的 直观 


工具 , 即 语法 树 , 也 称 推导 树 。 


树 ) 


Az» 


给 定 文法 G= (Vu Vr P.S) XEF G 的 任何 句 型 都 能 构造 与 之 关联 的 语法 树 ( 推 导 


。 这 棵 树 满 足下 列 4 个 条 件 : 


(1) 每 个 结 点 都 有 一 个 标记 ,此 标记 是 V 的 一 个 符号 。 

(2) 根 的 标记 是 S。 

G) 车 一 个 结 点 n 至 少 有 一 个 它 自己 除外 的 子孙 ,并 且 有 标记 A, 则 A 肯定 在 Vs 中 。 
CA) 如 果 结 点 n 的 直接 子孙 从 左 到 右 的 次 序 是 结 点 击 ,no，… ,ma，, 其 标记 分 别 为 Al， 
“Ar IBA AA, A,… Ay 一 定 是 P 中 的 一 个 产生 式 。 

下 面 用 一 个 例子 来 说 明 语法 树 ( 推 导 树 ) 的 构造 。 

例 2.7 G=({S,A}),{a,6},P,S), 其 中 为 

(1) Sx>aAS 

(2) A>SbA 

(3) A>SS 

(4) S>a s 


(5) Aba JN 


图 2.1 是 G 的 一 棵 推导 树 。 df 4 Ss 
标记 S 的 顶端 结 点 是 树 根 , 它 的 直接 子孙 为 a.A 和 S 三 个 结 | 本 
Ss b A a 


点 ,a 在 A 和 S 的 左边 ,A 在 S 的 左边 ,S>aAS 是 一 个 产生 式 。 同 


FEA 结 点 至 少 有 一 个 除 它 自己 以 外 的 子孙 (A 的 直接 子孙 为 S， 


b AA) A 肯定 是 非 终结 符 。 a b a 


图 2.1 的 推导 树 是 例 2.7 的 文法 G 的 句 型 aabbaa 的 推导 过 程 图 2.1 推导 树 
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非常 直观 自然 的 描述 ,从 左 至 右 读 出 图 2. 1 的 推导 树 的 叶子 标记 ,得 到 的 就 是 句 型 cabpaa 。 
常常 把 aabbaa 叫做 推导 树 的 结果 ,也 把 推导 树 叫 做 句 型 aabbaa 的 语法 树 , 而 且 在 以 后 的 章 
节 中 ,只 使 用 语法 树 这 个 术语 。 

语法 树 表示 了 在 推导 过 程 中 施用 了 哪个 产生 式 和 施用 在 哪个 非 终 结 符 上 , 它 并 没有 表 
明 施 用 产生 式 的 顺序 。 比 如 例 2.7 文法 G 的 句 型 aabbaa 的 推导 过 程 可 以 列举 以 下 3 +: 

推导 过 程 l: SAS Aa aSbAa aSbbaa =nabbaa 

推导 过 程 2: SAS aSbAS =nabAS =nabbaS =nabbaa 

推导 过 程 3: SAS 之 SAS aSbAa =nabAa =nabbaa 

其 中 第 1 个 推导 过 程 的 特点 是 在 推导 中 总 是 对 当前 串 中 的 最 右 非 终结 符 施用 产生 式 进 
行 替 换 , 施 用 产生 式 的 顺序 为 (1)、(4)、(2)、(5) 和 (4)。 第 2 个 推导 过 程 恰恰 相反 ,在 推导 中 
总 是 对 当前 串 中 的 最 左 非 终结 符 施 用 产生 式 进行 蔡 换 , 施 用 产生 式 的 顺序 为 (1)、(2)、(4)、 
(5) 和 (4)。 除 上 述 3 个 推导 过 程 外 ,显然 还 可 以 给 出 一 些 不 同 的 推导 过 程 , 这 里 不 再 列举 。 

如 果 在 推导 的 任何 一 步 IEP w\8 是 句 型 ,都 是 对 a 中 的 最 左 ( 最 右 ) 非 终结 符 进行 
替换 , 则 称 这 种 推导 为 最 左 (最 右 ) 推 导 。 上 述 第 1 个 推导 是 最 右 推导 ,第 2 个 是 最 左 推导 。 
在 形式 语言 中 ,最 右 推 导 常 被 称 为 规范 推导 。 由 规范 推导 所 得 的 句 型 称 为 右 句 型 或 规范 
句 型 。 

不 管 是 上 述 第 1 个 还 是 第 2 个 、 第 3 个 推导 过 程 , 它 们 相 联 的 语法 树 都 是 图 2. 1 的 语法 
树 。 这 就 是 说 ,一 棵 语法 树 表示 了 一 个 句 型 的 种 种 可 能 的 (但 未 必 是 所 有 的 ) 不 同 推导 过 程 ， 
包括 最 左 ( 最 右 ) 推 导 。 但 是 ,一 个 句 型 是 否 只 对 应 唯一 的 一 棵 语法 树 呢 ? 一 个 句 型 是 否 只 
有 唯一 的 一 个 最 左 ( 最 右 ) 推 导 呢 ? 不 是 的 。 

例如 ,对 于 例 2.6 的 文法 G, 句 型 ixi 十 i 就 有 两 个 不 同 的 最 左 推 叶 1 和 2, 它 们 所 对 应 
的 语法 树 分 别 如 图 2.2 和 图 2. 3 所 示 。 

E E 
AN 个 


* E 
i | + E 


i i 


图 2.2 推导 1 的 语法 树 图 2.3 推导 2 的 语法 树 


推导 1: ESE+E SE * E+E = * E+ ES *it+ ES *iti 

推导 2: ESE x E= * Ea * E+ ES *it+ES *iti 

ix i +i 是 例 2.6 文法 G 的 一 个 句子 ,这 个 句子 可 以 用 完全 不 同 的 两 种 办 法 生成 ,在 生 
成 过 程 的 第 1 步 ,一 种 办 法 使 用 产生 式 E>E 十 E 进行 推导 , 另 一 种 办 法 是 使 用 产生 式 E 一 
E+E, Alii ix iti 对 应 了 两 棵 不 同 的 语法 树 ( 见 图 2. 2 和 图 2. 3)。 

如 果 一 个 文法 存在 某 个 句子 对 应 两 棵 不 同 的 语法 树 , 则 说 这 个 文法 是 二 义 的 。 或 者 说 , 若 
一 个 文法 中 存在 某 个 句子 , 它 有 两 个 不 同 的 最 左 ( 最 右 ) 推 导 , 则 这 个 文法 是 二 义 的 。 例 2.6 的 
文法 G 是 二 义 的 。 

注意 ,文法 的 二 义 性 和 语言 的 二 义 性 是 两 个 不 同 的 概念 。 因 为 可 能 有 两 个 不 同 的 文法 
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G 和 G’ ,其 中 可 能 G ES TG’ RA AY APE AY L(G) = L(G’) ,也 就 是 说 ,这 两 个 
文法 所 产生 的 语言 是 相同 的 。 如 果 产 生 上 下 文 无 关 语言 的 每 一 个 文法 都 是 二 义 的 , 则 说 此 
语言 是 先天 二 义 的 。 对 于 一 个 程序 设计 语言 来 说 ,常常 希望 它 的 文法 是 无 二 义 的 ,因为 希望 
对 它 的 每 个 语句 的 分 析 是 唯一 的 。 

形式 语言 理论 已 经 证 明 , 要 判定 任 给 的 一 个 上 下 文 无 关 文法 是 否 为 二 义 的 ,或 它 是 否 产 
生 一 个 先天 二 义 的 上 下 文 无 关 语言 ,这 两 个 问题 是 递归 不 可 解 的 co 。 即 ,不 存在 一 个 算法 ， 
它 能 在 有 限 步 又 内 确切 判定 任 给 的 一 个 文法 是 否 为 二 义 的 。 我 们 所 能 做 的 事 是 为 无 二 义 性 
寻找 一 组 充分 条 件 (当然 它们 未 必 都 是 必要 的 )。 例 如 ,在 例 2.6 的 文法 中 ,假若 规定 了 运算 
符 十 与 * 的 优先 顺序 和 结合 规则 , 即 按 惯例 ,让 * 的 优先 性 高 于 十 , 且 它 们 都 服从 左 结合 , 那 
么 就 可 以 构造 出 一 个 无 二 义 文 法 ,如 例 2. 8 的 文法 。 

例 2.8 定义 表达 式 的 无 二 义 文法 G[E]: 

E>T|E+T 

T>F|T*F 

F>(E)|i 

它 和 例 2. 6 的 文法 产生 的 语言 是 相同 的 , 即 它 们 是 等 价 的 。 


2.6 名 型 的 分 析 


对 于 上 下 文 无 关 文法 ,语法 树 是 句 型 推导 过 程 的 几何 表示 。 从 2. 5 节 所 给 的 例子 看 出 ， 
语法 树 确实 将 所 给 句 型 的 结构 很 直观 地 显示 出 来 了 。 语 法 树 是 句 型 结构 分 析 的 极 好 工具 。 
而 这 里 所 说 的 句 型 分 析 问 题 , 是 说 如 何 知道 所 给 定 的 符号 串 是 文法 的 句 型 。 句 型 的 分 析 就 
是 识别 一 个 符号 串 是 否 为 某 文法 的 句 型 ,是 某 个 推导 的 构造 过 程 。 进 一 步 说 , 当 给 定 一 个 符 
号 串 时 ,试图 按照 某 文 法 的 规则 为 该 符号 串 构造 推导 或 语法 树 ,以 此 识别 出 它 是 该 文法 的 一 
个 句 型 ; 当 符 号 串 全 部 由 终结 符号 组 成 时 ,就 是 识别 它 是 不 是 某 文法 的 句子 。 因 此 也 有 人 把 
语法 树 称 为 语法 分 析 树 或 分 析 树 。 对 于 程序 设计 语言 来 说 ,要 识别 的 是 程序 设计 语言 的 程 
序 ,程序 是 定义 程序 设计 语言 的 文法 的 句子 。 句 型 分 析 是 一 个 识别 输入 符号 串 是 否 为 语法 
上 正确 的 程序 的 过 程 。 在 语言 的 编译 实现 中 ,把 完成 句 型 分 析 的 程序 称 为 分 析 程 序 或 识别 
程序 ,分 析 算 法 又 称 识别 算法 。 

本 书 介绍 的 分 析 算法 都 称 为 从 左 到 右 的 分 析 算法 , 即 总 是 从 左 到 右 地 识别 输入 符号 串 ， 
首先 识别 符号 串 中 的 最 左 符号 ,进而 识别 右边 的 一 个 符号 。 当 然 ,也 可 以 定义 从 右 向 左 的 分 
析 算 法 ,但 从 左 到 右 的 分 析 更 为 自然 ,因为 程序 是 从 左 到 右 地 书写 与 阅读 的 。 

这 种 分 析 算 法 又 可 分 成 两 大 类 , 即 自 项 向 下 的 和 自 底 向 上 的 。 所 谓 自 顶 向 下 分 析 
法 ,是 从 文法 的 开始 符号 出 发 ,反复 使 用 各 种 产生 式 , 寻 找 “ 匹 配 ” 于 输入 符号 串 的 推导 。 
自 底 向 上 的 方法 则 是 从 输入 符号 串 开 始 ,逐步 进行 “ 归 约 ”, 直 至 归 约 到 文法 的 开始 符号 。 
从 语法 树 建立 的 方式 可 以 很 好 理解 这 两 类 方法 的 区 别 。 自 项 向 下 方法 是 从 文法 符号 开 
始 , 将 它 作 为 语法 树 的 根 , 向 下 逐步 建立 语法 树 ,使 语法 树 的 末端 结 点 符号 串 正好 是 输入 
符号 串 ; 自 底 向 上 方法 则 是 从 输入 符号 串 开始 ,以 它 作 为 语法 树 的 末端 结 点 符号 串 , 自 底 
向 上 地 构造 语法 树 。 
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2.6.1 自 顶 向 下 的 分 析 方法 


下 面 以 一 个 简单 的 例子 说 明 自 项 向 下 分 析 方 法 的 基本 思想 。 

例 2.9 考虑 文法 GLS]: 

(1) S>cAd 

(2) A>ab 

(3) A>a 

识别 输入 串 w=cabd 是 否 为 该 文法 的 句子 。 即 从 根 符号 S 开始 ,如 图 2.4(a) 所 示 , 试 
着 为 cabd 构造 一 棵 语法 树 。 在 构造 的 第 1 步 ,唯一 的 一 个 产生 式 可 施用 , 则 构造 了 直接 推 
ẸF SAd, M S 向 下 画 语 法 树 , 如 图 2. 4(b) 所 示 。 这 棵 树 的 最 左 叶子 标记 为 c, 已 和 
w 的 第 1 个 符号 匹配 。 考 虑 下 一 个 叶子 标记 A, 可 用 A 的 第 1 个 候选 (产生 式 (2)) 去 扩展 
A, 则 会 得 到 如 图 2. 4(c) 所 示 的 语法 树 ,构造 的 直接 推导 为 cAd =xabd 。 这 时 输入 符号 串 
w 的 第 2 个 符号 a 得 到 了 匹配 。 第 3 个 输入 符号 为 5, 将 它 与 下 一 个 叶子 标记 4 相 比 较 , 得 
以 匹配 ,叶子 d 匹配 了 第 4 个 输入 符号 ,这 时 可 以 宣布 识别 过 程 胜利 结束 。 所 构造 的 推导 过 


程 为 S 一 Ad =xabd。 
S S 


(a) (b) © 
图 2.4 自 顶 向 下 的 分 析 步骤 


2.6.2 自 底 向 上 的 分 析 方 法 


仍 使 用 例 2. 9 中 的 文法 来 为 输入 符号 串 cabd 构造 语法 树 , 所 采用 的 是 自 底 向 上 的 方法 。 

首先 从 输入 符号 串 开 始 。 扫 描 cebd ,从 中 寻找 一 个 子 串 ,该 子 串 与 某 一 产生 式 的 右 端 
相 匹 配 。 子 串 a 和 子 串 ab 都 是 合格 的 ,假若 选用 了 ap, 用 产生 式 (2) 的 左 端 A 去 替代 它 , 即 
把 ab 归 约 到 A ,得 到 了 串 cAd。 构 造 了 一 个 直接 推导 cAd =xabd , 即 从 cabd 叶子 开始 向 上 
构造 语法 树 ,如 图 2.5(b) 所 示 。 接 下 去 ,在 得 到 的 串 cAd 中 又 找到 了 子 串 cAd 与 产生 式 
(1) 的 右 端 相 匹配 , 则 用 S BEAR cAd ,或 称 将 cAd 归 约 到 S ,得 到 了 又 一 直接 推导 S Ad, 
形成 了 图 2. 5(c) 所 示 的 语法 树 ,符号 串 cabd 的 推导 序列 为 S Ad =xabd 。 


Ss 

A JN 

ca bd ca bd ca bd 
) c) 


(a) (b 
图 2.5 自 底 向 上 的 分 析 步骤 


( 
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2.6.3 和 句 型 分 析 的 有 关 问 题 


在 自 顶 向 下 的 分 析 方法 中 ,对 于 例 2. 9 的 文法 ,构造 了 第 一 个 直接 推导 S Ad 后 , 接 
下 来 要 扩展 非 终 结 符 A 了 ,在 A 的 两 个 选择 中 采用 了 产生 式 (2) ,很 8 
顺利 地 完成 了 识别 过 程 。 假 车 当时 是 另 一 种 选择 ,采用 产生 式 (3) YN 
的 右 部 扩展 A, 那 将 会 出 现 什么 情况 呢 ? 即 构造 的 推导 序列 是 S 一 l 4 OY 
cAd 一 ad ,语法 树 如 图 2. 6 所 示 。 看 到 输入 符号 串 w= cabd 的 第 
2 个 符号 与 叶子 结 点 a 得 以 匹配 ,但 第 3 个 符号 不 能 与 下 一 叶子 结 a 
点 双 匹 配 , 这 时 如 果 宣告 分 析 失败 , 则 意味 着 识别 程序 不 能 为 串 图 2.6 cad 的 语法 树 
cabd 构造 语法 树 , 即 cabd 不 是 句子 ,这 显然 是 错误 的 结论 ,导致 失 
败 的 原因 是 在 分 析 中 对 A 的 选择 不 是 正确 的 。 因 此 在 自 顶 向 下 分 析 方法 中 的 主要 问题 是 ， 
假定 要 被 代 换 的 最 左 非 终结 符 是 V, 且 及 条 规则 : Ver laz l- la, ,那么 如 何 确定 用 哪个 
右 部 去 蔡 代 V 呢 ? 有 一 种 办 法 是 从 各 种 可 能 的 选择 中 随机 挑选 一 种 ,并 希望 它 是 正确 的 。 
如 果 以 后 发 现 它 是 错误 的 ,必须 退回 去 ,再 试 另 外 的 选择 ,这 种 方式 称 为 回溯 。 显 然 这 样 做 
代价 极 高 ,效率 很 低 。 在 第 4 章 将 专门 介绍 自 项 向 下 分 析 方 法 中 回溯 问题 的 解决 。 

在 自 底 向 上 的 分 析 方法 中 ,在 分 析 程序 工作 的 每 一 步 ,都 是 从 当前 串 中 选择 一 个 子 串 ， 
将 它 归 约 到 某 个 非 终结 符 , 暂 且 把 这 个 子 串 称 为 "可 归 约 串 ”。 问 题 是 ,每 一 步 如 何 确定 这 个 
“可 归 约 串 ”。 在 例 2.9 的 文法 对 串 cabd 的 分 析 中 ,如 果 不 是 选择 子 串 ab 用 产生 式 (2) ,而 
是 选择 子 串 a 用 产生 式 (3) 将 a 归 约 到 A ,那么 最 终 就 达 不 到 归 约 到 S 的 结果 ,因而 也 无 从 
知道 cabd 是 一 个 句子 。 为 什么 在 cabd 中 ,ab 是 “可 归 约 串 ”, 而 a 不 是 “可 归 约 串 ”? 如 何 知 
道 这 一 点 ,这 是 自 底 向 上 分 析 的 关键 问题 。 因 此 需要 精确 定义 “可 归 约 串 ”"。 事 实 上 ,存在 种 
种 不 同 的 方法 刻画 “可 归 约 串 "。 对 这 个 概念 的 不 同 定义 形成 了 不 同 的 自 底 向 上 分 析 方 法 。 
在 一 种 称 作 “ 规 范 归 约 ”的 分 析 中 ,这 种 “可 归 约 串 ” 称 作 和 句柄 。 现 在 给 出 句柄 的 定义 。 

定义 2.8 令 G 是 一 个 文法 ,S 是 文法 的 开始 符号 ,ap8 是 文法 G 的 一 个 句 型 。 如 果 有 
S SaAd HA SB. WEK B FEM ofS 相对 于 非 终结 符 A 的 短语 。 特 别 地 ,如 果 有 A =p. 


称 8 是 句 型 apò 相对 于 规则 Ap 的 直接 短语 (也 称 简单 短语 ) 。 一 个 右 句 型 的 直接 短语 称 
为 该 句 型 的 句柄 。 句 柄 的 概念 只 适合 于 右 句 型 。 

如 果 所 考虑 的 文法 是 无 二 义 的 ,那么 每 个 右 句 型 有 唯一 的 最 右 推导 ,因而 其 句柄 是 唯一 
的 ;对 于 二 义 文法 , 右 句 型 就 可 能 有 多 个 句柄 。 对 于 无 二 义 文法 ,一 个 右 句 型 的 唯一 句柄 是 
其 所 有 直接 短语 中 最 左边 的 那 一 个 ,对 于 这 种 情形 ,该 句 型 的 最 左 直接 短语 即 是 它 的 句柄 。 

下 面 举 一 些 例子 来 理解 短语 直接 短语 和 句柄 的 概念 。 

考虑 例 2. 8 中 的 无 二 义 文法 GLE] 的 一 个 句 型 ix*i 十 i。 为 了 叙述 方便 ,将 句 型 写作 
i žiti AWA E SF * iti H Fai, WU i, EH i, * i, +i, 的 相对 于 非 终结 符 
F 的 短语 ,也 是 相对 于 规则 Fi 的 直接 短语 。 

MAE Si * F+i,.A F =, WW i, 是 句 型 xi 十 is 的 相对 于 下 的 短语 ,也 是 相对 于 
规则 Fi 的 直接 短语 。 

WA E Si, * it+F. APS. Wi, he i «i, +i, 的 相对 于 下 的 短语 ,也 是 相 
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对 于 规则 Fi 的 直接 短语 。 
MAE ST* hti HTS 1. RDM i x iti 的 相对 于 工 的 短语 。 


MAE Si * 2+T. ATS i, i, BD i iti WHT TORI. 
BA E STH i. ATS i * i, Mi, * i EW i x i, +i, OME TORR. 


BA E SE+ i, BES i*i Wie i BM i x itis WHT EIB, 


还 有 EE SE,H ES, * irtis W i * itis EAR i, * i, +i, MOF E MA. 

BY iy siz sisii * iz Main * iz His BEAN i * itis 的 短语 ,而 且 iii 均 为 直接 短 
语 ,其 中 局 是 最 左 直接 短语 , 即 句 柄 。 注 意 ,i * i, + is 是 一 个 右 句 型 。 

BUR ip + is EAM i * ip +i, 的 一 部 分 ,但 并 不 是 它 的 短语 ,因为 尽管 有 EE S irt is, 


但 不 存在 从 文法 开始 符号 玉 到 i * 正 的 推导 。 
再 讨论 例 2. 7 的 文法 的 句 型 aabbaa ,为 区 别 其 中 的 a MO AWE SLE asb1bsasas。 它 
的 直接 短语 有 a2 .beas 和 ay ,as 是 句柄 ; 它 的 短语 有 as .aas as vazb1bza3 Ml arazbibzasas o 
从 句 型 的 推导 树 上 很 容易 找 出 句 型 的 短语 和 直接 短语 。 设 A 是 句 型 ap6 的 某 一 子 树 的 
根 , 其 中 8 是 形成 此 子 树 的 末端 结 点 的 符号 串 , 则 8 是 句 型 88 的 相对 于 A 的 短语 。 若 这 个 
子 树 只 有 一 层 分 支 , 则 8 是 句 型 88 的 直接 短语 。 


2.7 有关 文法 实际 应 用 的 一 些 说 明 


引进 文法 的 目的 在 于 描述 程序 设计 语言 。 在 实际 应 用 中 ,一 方面 ,需要 对 文法 提出 
一 些 限 制 条 件 , 但 这 些 限制 并 不 真正 限制 由 文法 所 能 描述 的 语言 ; 男 一 方面 ,有 时 还 需要 
对 文法 进行 扩充 ,例如 ,在 上 下 文 无 关 语言 的 许多 说 明和 分 析 中 允许 有 称 作 se 规则 的 产生 
式 ( 即 ,对 于 任何 非 终结 符 A ,允许 A>e 的 产生 式 )。 本 节 就 这 两 个 方面 的 问题 进行 一 些 
讨论 。 
2.7.1 有 关 文 法 的 实用 限制 


在 实际 使 用 中 ,应 限制 文法 中 不 得 含有 有 害 规则 和 多 余 规 则 。 所 谓 有 害 规 则 ,是 指 形 为 
U>U 的 产生 式 。 它 对 描述 语言 显然 是 没有 必要 的 。 说 它 有 害 , 是 说 它 只 会 引起 文法 的 二 
义 性 。 所 谓 多 余 规则 ,是 指 文法 中 那些 连 一 个 句子 的 推导 都 用 不 到 的 规则 ,这 类 规则 在 文法 
中 以 两 种 形式 出 现 。 一 种 是 文法 中 某 些 非 终结 符 不 在 任何 规则 的 右 部 出 现 , 所 以 任何 句子 
的 推导 中 都 不 可 能 用 到 它 。 如 例 2. 10 的 文法 GLS] 中 , 非 终结 符 D 不 在 任何 规则 的 右 部 出 
现 ,那么 规则 (7) 是 多 余 规则 ,这 种 非 终结 符 也 称 为 不 可 到 达 的 。 另 一 种 情况 则 是 在 文法 中 
有 这 样 的 非 终结 符 : 不 能 够 从 它 推 导出 终结 符号 串 来 。 这 种 非 终结 符 也 称 为 不 可 终止 的 。 
例 2. 10 中 的 文法 GLS] 的 非 终结 符 C 属 这 种 情况 ,那么 规则 (6) 也 是 在 任何 句子 的 推导 中 
都 不 能 使 用 的 ,是 多 余 的 。 因 而 规则 (2) 也 是 多 余 的 。 

例 2.10 有 文法 GLS]: 

(1) S>Be 
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(2) B>Ce 

(3) B>Af 

(4) A>Ae 

(5) A>e 

(6) C>Cf 

(7) D>f 

对 文法 G= (Vu Vr SPIRE. TRIERER A 在 句子 推导 中 出 现 ,必须 满足 
如 下 两 个 条 件 : 

(1) A 必须 在 某 句 型 中 出 现 。 即 有 S 一 Ap8, 其 中 8 属于 (VANUVT)  。 

(2) 必须 能 够 从 A 推出 终结 符号 串 1 来 。 即 A Sc, Fb cE Vi. 


若 程序 设计 语言 的 文法 包含 多 余 规则 时 ,其 中 必定 有 错误 存在 ,因此 检查 文法 是 否 包含 
多 余 规则 是 很 有 必要 的 。 


2.7.2 上 下 文 无 关 文 法 中 的 se 规则 


在 本 书 介绍 的 定义 里 ,上 下 文 无 关 文法 中 某 些 规则 可 具有 形式 Ae SEH AE Vy AH 
规则 称 为 e 规则 。 但 在 很 多 著作 和 讲义 中 限制 这 种 规则 的 出 现 , 是 因为 s 规则 会 使 得 有 关 
文法 的 一 些 讨论 和 证 明 变 得 复杂 。 

其 实 , 两 种 定义 的 唯一 差别 是 句子 在 不 在 语言 中 。 这 不 是 什么 本 质问 题 ,前 面 说 过 ， 
使 用 文法 作为 工具 ,不仅 是 为 了 严格 地 定义 句子 的 结构 ,也 是 为 了 用 适当 条 数 的 规则 把 语言 
的 全 部 句子 描述 出 来 , 即 找 出 语言 的 有 穷 描述 ,而 如 果 语 言 L 有 一 个 有 穷 的 描述 , 则 工 1 = 
LU (e) 也 同样 有 一 个 有 穷 的 描述 ,并 且 可 以 证 明 , 车 L 是 上 下 文 有 关 语 言 、 上 下 文 无 关 语 
言 或 正规 语言 , 则 工 U{s} 和 工 一 {e} 也 分 别 是 上 下 文 有 关 语 言 、 上 下 文 无 关 语 言 和 正规 
语言 。 

下 面 的 几 个 定理 有 助 于 进一步 理解 上 下 文 无 关 文法 的 两 种 定义 的 关系 。 本 书 不 给 予 任 
何 证 明 , 有 兴趣 的 读者 可 参考 有 关 书 中 内 容 。 

定理 2.1 若 荆 是 由 文法 G=(VN,Vr,P,S) 产 生 的 语言 ,P 中 的 每 一 个 产生 式 的 形式 
均 为 A>a, 其 中 AEVy,a€ (VrUVr)*( 即 a 可 能 为 e), 则 L 能 由 这 样 的 一 种 文法 产生 , 即 
每 一 个 产生 式 或 者 为 A 一 8B 形式, 其 中 A 为 一 个 非 终结 符 , 即 AEVN,BE(CVNUVT)+ ;或 者 
WA Se 形式 , 且 S 不 出 现在 任何 产生 式 的 右边 。 

定理 2.2 如果 G=(VN,Vr,P,S) 是 一 个 上 下 文 有 关 文 法 , 则 存在 另 一 个 上 下 文 有 关 
文法 G1, 它 所 产生 的 语言 与 G 产生 的 相同 ,其 中 G1 的 开始 符号 不 出 现在 G1 的 任何 产生 式 
的 右边 。 又 如 果 G 是 一 个 上 下 文 无 关 文 法 ,也 能 找到 这 样 一 个 上 下 文 无 关 文 法 G1; 如 果 
G 是 一 个 正规 文法 , 则 也 能 找到 这 样 一 个 正规 文法 Gl 。 


练 J 
1. 文法 G=({A,B,S},{a,b,c}P,S) 


其 中 为 
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S—>Ac|aB 
A—>ab 
Bbc 
写 出 L(GLSJ]) 的 全 部 元 素 。 
2. 文法 GLN] 为 
N>D|ND 
D-~>01112131415161718191 
GLN] 的 语言 是 什么 ? 
3. 为 只 包含 数字 、 加 号 和 减 号 的 表达 式 , 例 如 9 一 2 十 5、3 一 1、7 等 构造 一 个 文法 。 
4. 证 明文 法 G=({E,O},{(,), 十 , * ,v,d},P,E) 是 二 义 的 ,其 中 PP 为 
E>EOE|(E)|v\d 
O> +|* 
5. 已 知 文法 GLZ]: 
Z::=a Zb 
Z::=ab 
写 出 L(G[2Z]) 的 全 部 元 素 。 
6. 已 知 文法 G: 
(表达 式 ): :二 (项 )|( 表 达 式 ) 十 (项 ) 
(+ = (AF) | (项) * (AF) 
《因子 ):: 一 (( 表 达 式 ))1i 
试 给 出 下 述 表 达 式 的 推导 及 语法 树 。 
a)i (2) G) (3) ixi 
(A) ixiti (5) i+G+i) (6) itixi 
7. 习题 1 中 的 文法 GLS] 是 二 义 的 吗 ? 为 什么 ? 
8. 考虑 下 面 的 上 下 文 无 关 文法 ， 
S—>SS * |SS+ |a 
(1) 表明 通过 此 文法 如 何 生 成 串 aata x ,并 为 该 串 构造 语法 树 。 
(2) 该 文法 生成 的 语言 是 什么 ? 
9. 已 知 文法 S-~S(S)Sle。 
(1) 该 文法 生成 的 语言 是 什么 ? 
(2) 该 文法 是 二 义 的 吗 ? 说 明理 由 。 
10. 令 文法 GLE] 为 
E>T|E+T|E-T 
T>F|T* F\|T/F 
F>(E)|i 
WEH EHT * FECA 2 A a 4S in) AS J SS SA, 
11. 一 个 上 下 文 无 关 文法 生成 句子 abbaa 的 唯一 语法 树 如 下 : 
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aa 
A, À 


a S B B A 


e b Ò a 


(1) 给 出 该 句子 相应 的 最 左 推导 和 最 右 推导 。 

(2) 该 文法 的 产生 式 集合 P 可 能 有 哪些 元 素 ? 

G) 找 出 该 句子 的 所 有 短语 ,简单 短语 、 句 柄 。 

12. 构造 产生 如 下 语言 的 上 下 文 无 关 文 法 各 一 个 

(1) {a"b"|n>0} 

(2) {a"b" |m>n>0} 

(3) {uawb |u,w ela.b}* Alu |=|w |} 

(A) {a"b” |n=2m>0} 

(5) {a"b" |n=0,m>0, H. 38n>m>2n} 

(6) (ww*|w elab)" ), 其 中 ,wr 表示 ww 的 反 向 串 , 其 含义 是 将 w 中 的 字母 依次 反 转 ， 
首尾 字母 交换 位 置 ,下 同 。 

(7) {uvwv® |u,v,w ea,b}* Alul=|wl=1} 

(8) (wlw ela,b} Nw=w*} 

13, 构造 产生 如 下 语言 的 上 下 文 无 关 文法 各 一 个 : 

(1) {a"b™c?™ |n,m>0} 

(2) {wew® |w efa,b}* } 

(3) {a"b"c* |m=n K n=k} 

(4) {a™b"c* |m=k MR n=k} 

(5) { a"b"ct |n<m + kkn, A mon k>1} 

(6) {a"b'c™ |n.k,m>0.A n>m} 

(7) {a"b"c™d™ |n=1 »m>1} Ula"b"c"d" |n=1.m>1} 

(8) {wre wcre wcw; |RE1 AIS j<Rk 且 对 任何 1SI<k. A w: Efa.b}*} 

14, 考虑 Ci PIO RIA AES RAS PBS THES RA BALI FOR. WR 
Ca i AD PETS LR TRS VASP FIRAR, fl. f Cali] * lll] cigi], 
df[ 可 ) 去 掉 除 括号 以 外 的 字符 后 就 变 成 了 一 个 括号 匹配 的 串 ([](D]L]LCO])D)。 试 设计 一 
个 文法 来 定义 所 有 的 圆 括 号 和 方 括号 都 匹配 的 串 。 

15. 分 以 下 两 种 情形 ,各 写 一 个 文法 ,使 其 语言 是 十 进 制 非 负 偶数 的 集合 : 

(1) 允许 0 打头 。 

(2) 不 允许 0 打头。 

16. 构造 产生 语言 {wlw elab)” ,其 中 ab 的 数目 不 相同 } 的 一 个 上 下 文 无 关 文 法 。 

17. 语言 (arb"ce"d"|am%b"e"d"|n,m 之 0) 是 上 下 文 无 关 的 吗 ? 能 看 出 它们 反映 程序 设计 
语言 的 什么 特性 吗 ? 

“A 


18. 给 出 生成 下 述 语言 的 一 个 3 型 文法 : 

(1) {o"|z 之 0)} 

(2) {a"b"|n,»m>1} 

(3) {a"b™c* |n,m,k>=0} 

19. 以 下 是 一 个 条 件 表达 式 文法 : 

<stmt>—<if-stmt> | other 

<if-stmt>—if (<exp>)<stmt>|if (<exp>)<stmt>else <stmt> 
<exp>—false | true 


其 中 ,二 stmt 二 一 istmt 二 和 一 exp 二 为 非 终结 符 , 一 stmt 二 为 开始 符号 , 带 下 划 线 的 单词 
为 终结 符 。 

(1) 说 明 该 文法 是 二 义 的 。 

(2) 试 给 出 一 个 无 二 义 的 条 件 表达 式 文法 ,使 其 等 价 于 该 文法 。 

20. 试 构造 一 个 程序 ,使 其 根据 C 语言 语法 定义 是 合法 的 ,但 不 能 被 C 语言 的 编译 程序 
所 接受 。 

21. 参考 1.4.2 WK 1.1 中 PL/0 语言 语法 的 EBNF 描述 , 试 给 出 PL/0 语言 语法 的 一 
种 上 下 文 无 关 文 法 描述 。 
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第 3 章 词法 分 析 


词法 分 析 是 编译 的 第 一 个 阶段 , 它 的 主要 任务 是 从 左 至 右 逐 个 字符 地 对 源 程序 进行 扫 
描 , 产 生 一 个 个 单词 序列 ,用 于 语法 分 析 。 执 行 词法 分 析 的 程序 称 为 词法 分 析 程 序 或 扫描 程 
序 。 本 章 讨论 词法 分 析 程 序 的 设计 原则 、 单 词 的 描述 技术 、 识 别 机 制 及 词法 分 析 程 序 的 自动 
构造 原理 。 


3.1 词法 分 析 程 序 的 设计 


3.1.1 词法 分 析 程序 和 语法 分 析 程 序 的 接口 方式 


词法 分 析 程 序 完成 的 是 编译 第 一 阶段 的 工作 。 词 法 分 析 工 作 可 以 是 独立 的 一 遍 , 把 字 
符 流 的 源 程序 变 为 单词 序列 ,输出 到 一 个 中 间 文 件 , 这 个 文件 作为 语法 分 析 程 序 的 输入 而 继 
续 编 译 过 程 。 然 而 ,更 一 般 的 情况 是 将 词法 分 析 程序 设计 成 一 个 子 程序 ,每 当 语法 分 析 程 序 
需要 一 个 单词 时 , 则 调用 该 子 程序 。 词 法 分 析 程序 每 得 到 一 次 调用 , 便 从 源 程序 文件 中 读 入 
一 些 字符 ,直到 识别 出 一 个 单词 ,或 说 直到 下 一 个 单词 的 第 一 个 字符 为 止 。 这 种 设计 方案 
中 ,词法 分 析 程 序 和 语法 分 析 程 序 放 在 同一 遍 里 ,而 省 掉 了 中 间 文 件 或 存储 区 ,本 书 介绍 的 
PL/0 编译 程序 就 是 这 样 一 种 方案 。 如 不 特别 指明 ,后 续 章 节 中 的 词法 分 析 程序 均 指 可 供 
语法 分 析 程 序 调用 的 子 程序 ,如 图 3. 1 所 示 。 


返回 , 下 一 个 单词 
源 程序 一 (语法 分 析 往 序 一 (语法 分 析 程 序 ) ~ … 


请 求 : 下 一 个 单词 
图 3.1 语法 分 析 程 序 调 用 词法 分 析 程 序 


3.1.2 词法 分 析 程 序 的 输出 


当 从 语法 分 析 程 序 接 到 下 一 个 单词 的 请 求 时 ,词法 分 析 程 序 从 左 到 右 读 入 源 程 序 的 字 
符 流 , 以 识别 下 一 个 单词 。 在 识别 出 下 一 个 单词 同时 验证 其 词法 正确 性 之 后 ,词法 分 析 程 序 
将 结果 以 单词 符号 的 形式 发 送 至 语法 分 析 程 序 以 回应 其 请 求 。 若 在 单词 识别 过 程 中 发 现 词 
法 错误 , 则 返回 出 错 信息 。 

单词 符号 一 般 可 分 成 下 列 5 类 : 

(1) 关键 字 , 也 称 保留 字 , 如 Pascal 语言 中 的 begin .end if.while 和 var 等 。 

(2) 标识 符 , 用 来 表示 各 种 名 字 , 如 常量 名 、 变 量 名 和 过 程 名 等 。 

(3) 常数 ,各 种 类 型 的 常数 ,如 25、3.1415、TRUE 和 "ABC" 等 。 

(4) 运算 符 , 如 十 、x <=, 

(5) 界 符 , 如 逗号 、 分 号 、 插 号 等 。 
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词法 分 析 程 序 所 输出 的 单词 符号 可 以 采用 以 下 二 元 式 表示 : 

(单词 种 别 ,单词 自身 的 值 ) 

单词 的 种 别 是 语法 分 析 需 要 的 信息 ,而 单词 自身 的 值 则 是 编译 其 他 阶段 需要 的 信息 。 
比如 在 PL/0 的 语句 “const i 一 25,yes 一 1;” 中 的 单词 25 和 1 的 种 别 都 是 常数 ,常数 的 值 25 
和 1 对 于 代码 生成 来 说 是 必 不 可 少 的 。 有 时 ,对 某 些 单词 来 说 ,不 仅仅 需要 它 的 值 ,还 需要 
其 他 一 些 信息 以 便 编译 的 进行 。 比 如 ,对 于 标识 符 来 说 ,还 需要 记载 它 的 类 别 、 层 次 以 及 其 
他 属性 ,如 果 这 些 属性 全 部 收集 在 符号 表 中 ,那么 可 以 将 单词 的 二 元 式 表 示 设 计 成 如 下 
形式 : 

(标识 符 ,指向 该 标识 符 所 在 符号 表 中 位 置 的 指针 ) 

如 上 述 语句 中 的 单词 1 和 yes 的 表示 为 

(标识 符 , 指 向 i 的 表 项 的 指针 ) 

(标识 符 ,指向 yes 的 表 项 的 指针 ) 

单词 的 种 别 可 以 用 整数 编码 表示 ,假如 标识 符 编码 为 1 ,常数 为 2, 关键 字 为 3, 运 算 符 
为 4, 界 符 为 5, 程序 段 “if i=5 then x 二 y;” 在 经 词法 分 析 器 扫描 后 输出 的 单词 符号 和 它们 
的 表示 如 下 : 

关键 字 if (31i 

标识 符 I (1 ,指向 ii 的 符号 表 入 口 ) 

等 号 = (4,'"=) 

常数 5 《2559 

关键 字 then (3, 'then’) 

标识 符 x (1 ,指向 x 的 符号 表 入 口 ) 


赋值 号 = (4,'=") 
标识 符 y (1 ,指向 y 的 符号 表 和 人口) 
分 号 ; (5,59 


3.1.3 将 词法 分 析 工 作 分 离 的 考虑 


词法 也 是 语法 的 一 部 分 ,词法 描述 完全 可 以 归并 到 语法 描述 中 去 ,只 不 过 词法 规则 更 简 
单 些 ,这 在 后 面 的 章节 中 可 以 看 到 。 既 然 这 样 ,为 什么 将 词法 分 析 作 为 一 个 独立 的 阶段 ? 为 
什么 把 编译 过 程 的 分 析 工 作 划 分 成 词法 分 析 和 语法 分 析 两 个 阶段 ? 主要 的 考虑 因素 有 以 下 
几 点 : 

(1) 使 整个 编译 程序 的 结构 更 简洁 、 清 晰 和 条 理化 。 词 法 分 析 比 语法 分 析 简 单 得 多 ,但 
是 由 于 源 程序 结构 上 的 一 些 细节 , 常 使 得 识别 单词 的 工作 极为 曲折 和 费时 。 例 如 ,空白 和 注 
释 的 处 理 ; 再 比如 对 于 FORTRAN 那 种 受 书 写 格式 限制 的 语言 , 需 在 识别 单词 时 进行 特殊 


(2) 编译 程序 的 效率 会 改进 。 大 部 分 编译 时 间 花 费 在 扫描 字符 以 把 单词 符号 分 离 出 

来 。 把 词法 分 析 独 立 出 来 ,采用 专门 的 读 字符 和 分 离 单词 的 技术 可 大 大 加 快 编译 速度 。 另 

外 ,单词 的 结构 可 用 有 效 的 方法 和 工具 进行 描述 和 识别 ,进而 可 建立 词法 分 析 程 序 的 自动 构 
造 工具 。 

G) 增强 编译 程序 的 可 移植 性 。 在 同一 个 语言 的 不 同 实现 中 ,或 多 或 少 地 会 涉及 与 设 
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备 有 关 的 特征 ,比如 采用 ASCII 还 是 EBCDIC 字符 编码 。 另 外 ,语言 的 字符 集 的 特殊 性 的 
处 理 , 一 些 专用 符号 ,如 Pascal 中 的 个 的 表示 等 ,都 可 置 于 词法 分 析 程序 中 解决 而 不 影响 编 
译 程序 其 他 成 分 的 设计 。 

词法 分 析 程 序 的 主要 功能 是 从 字符 流 的 源 程序 中 识别 单词 , 它 要 从 左 至 右 逐 个 字符 地 
扫描 源 程序 ,因此 它 还 可 完成 其 他 一 些 任务 。 比 如 , 滤 掉 源 程 序 中 的 注释 和 空白 (由 空格 、 制 
表 符 或 回 车 换行 字符 引起 的 空白 ); 又 如 ,为 了 使 编译 程序 能 将 发 现 的 错误 信息 与 源 程序 的 
出 错位 置 联系 起 来 ,词法 分 析 程序 负责 记录 新 读 入 的 字符 行 的 行 号 ,以 便 行 号 与 出 错 信 息 相 
关联 ;再 如 ,在 支持 宏 处 理 功 能 的 源 语言 中 ,可 以 由 词法 分 析 程序 完成 其 预 处 理 等 。 很 多 工 
作 与 源 语言 的 具体 要 求 以 及 编译 程序 的 整个 设计 有 关 , 在 此 不 一 一 列举 。 


3.1.4 词法 分 析 程 序 中 如 何 识 别 单词 


词法 分 析 中 识别 下 一 个 单词 的 过 程 ,简单 来 看 就 是 逐个 读 取 字 符 , 然 后 将 它们 拼 在 一 起 
的 过 程 。 词 法 分 析 程 序 的 作用 就 是 在 这 个 拼 单词 的 过 程 中 如 何 获得 下 一 个 有 意义 的 单词 符 
号 , 即 识别 出 单词 种 别 以 及 单词 自身 的 值 。 

要 识别 出 有 意义 的 单词 符号 ,主要 是 依据 程序 设计 语言 的 词法 规则 描述 。 描 述 一 个 语 
言 的 词法 规则 ,通常 需要 借助 形式 化 或 半 形 式 化 的 描述 工具 ,以 保证 没有 歧义 性 。 常 见 的 可 
用 于 词法 规则 描述 的 工具 有 状态 转换 图 、 扩 展 巴 克 斯 范式 (EBNF)、 有 限 状 态 自 动机 、 正 规 
表达 式 以 及 正规 文法 等 。 在 词法 规则 的 基础 上 ,进一步 设计 单词 符号 的 结构 。 

在 3.2 节 将 会 给 出 用 状态 转换 图 和 EBNF 描述 的 PL/0 语言 词法 规则 以 及 PL/0 编译 
器 中 单词 符号 的 设计 。 

在 识别 出 有 一 个 意义 的 单词 后 ,词法 分 析 程 序 将 单词 种 别 连 同 单词 自身 的 值 一 起 构成 
一 个 单词 符号 ,返回 给 调用 它 的 语法 分 析 程 序 。 

有 限 状 态 自 动机 、 正 规 表达 式 以 及 正规 文法 是 适合 于 正规 语言 的 描述 及 处 理 的 形式 模 
型 。 在 现实 程序 设计 语言 中 ,几乎 任何 一 种 有 意义 的 单词 种 别 对 应 的 单词 集合 都 是 正规 语 
言 ,这些 模型 的 表达 能 力 足以 描述 任何 程序 设计 语言 的 词法 规则 。 另 外 ,基于 这 些 语 言 模型 
处 理 正 规 语言 的 方法 已 经 非常 成 熟 。 因 此 ,以 这 些 模型 为 基础 来 设计 词法 分 析 程序 的 自动 
构造 工具 是 人 们 目前 普遍 采取 的 途径 。 

本 章 从 3. 3 节 至 3. 6 节 将 介绍 有 关 这 些 形式 模型 的 基础 理论 和 方法 ,在 此 基础 上 读者 
可 以 理解 词法 分 析 程 序 自动 构造 工具 的 一 般 原 理 和 方法 。 

另外 ,在 3.7 节 将 结合 实例 对 流行 的 自动 构造 工具 lex 的 使 用 进行 简介 。 


3.2 PL/0 编译 程序 中 词法 分 析 程 序 的 设计 和 实现 


本 节 以 PL/0 编译 程序 为 背景 ,介绍 一 个 词法 分 析 程 序 的 设计 实例 , 借 此 使 读者 进一步 
了 解 词法 分 析 程 序 构造 的 一 些 细节 。 
由 1.4.2 节 可 知 ,可 将 PL/0 语言 的 单词 分 为 保留 字 、 运 算 符 、 标 识 符 、 无 符号 整数 和 界 
符 5 个 大 类 ,以 下 是 针对 这 5 类 单词 的 一 种 EBNF 描述 : 
去 无 符号 整数 > = 一 数字 {二 数字 二 } 
RRES :: 二 去 字母 二 (去 字母 之 | 二 数字 >} 
。39 。 


去 字母 > t= alb 1…|XIYIZ 
去 数字 > ::= 0|112|…|1819 


<REP> = const| var| procedure| begin| end| odd| if| then| call | while| do| read| write 
SRS = +1-lel/l=1#1<I<=1>1 >=] :一 
二 界 符 二 re= Cs ss 


保留 字 、 运 算 符 和 界 符 这 几 类 各 自 仅 包含 有 限 个 单词 符号 ,在 实践 中 更 方便 将 每 个 单词 
符号 设计 为 独立 的 词法 单元 , 即 每 个 单词 符号 拥有 独立 的 种 别 。 这 样 ,PL/0 编译 程序 所 设 
计 的 单词 符号 对 应 有 31 个 单词 种 别 : 标识 符 1 个 ,无 符号 整数 1 个 ,保留 字 13 个 ,运算 符 
11 个 ,以 及 界 符 5 个 。 在 PL/0 词法 分 析 程 序 中 ,这 31 个 单词 种 别 采 用 下 列 枚 举 类 型 表示 : 


enum symbol { 


nul, ident, number, plus, minus, 
times, slash, oddsym, eql, neq, 

lss, leq, gtr, geq» lparen, 
rparen, comma, semicolon, period, becomes, 
beginsym， endsym, ifsym, thensym, whilesym, 
writesym, readsym, dosym, callsym, constsym, 
varsym, procsym, 


}; 


其 中 ,nul 不 对 应 单词 符号 ,只 是 出 于 实现 技术 的 考虑 ,代表 “不 能 识别 的 符号 ”。 
例如 ,在 PL/0 词法 分 析 程 序 扫描 下 列 语句 


position *=initial+rate * 60; 
之 后 ,所 生成 单词 符号 序列 的 单词 种 别 对 应 为 

ident becomes ident plus ident times number semicolon 

PL/0 词法 分 析 程序 定义 为 : 

int getsym() 

PL/0 语法 分 析 程 序 在 需要 读 取 下 一 个 单词 时 ,就 调用 getsym(),getsym() 返回 下 一 
个 单词 符号 。 除 标识 符 和 无 符号 整数 外 ,其 他 单词 符号 只 包含 单词 种 别 的 信息 。 标 识 符 和 
无 符号 整数 的 单词 符号 包含 单词 种 别 和 单词 自身 的 值 两 个 部 分 。 由 于 标识 符 是 在 语法 分 析 
阶段 登录 在 符号 表 里 的 ,所 以 对 于 标识 符 来 说 .PL/0 词法 分 析 程 序 所 返回 的 单词 自身 的 值 
不 是 符号 表 位 置 的 指针 ,而 是 标识 符 的 名 字 串 。 

PL/0 编译 程序 定义 3 个 全 程 变量 来 传递 单词 种 别 和 单词 自身 的 值 。 

(1) 通过 全 局 变量 sym 传递 单词 种 别 : 

enum symbol sym; 

(2) 通过 全 局 变量 id 传递 标识 符 单词 自身 的 值 , 即 标识 符 的 名 字 : 

char id [al 十 1]; /* al 为 预 设 的 标识 符 最 大 长 度 * / 

(3) 通过 全 局 变量 num 传递 无 符号 整数 单词 自身 的 值 , 即 它 的 整数 数值 : 


int num; 
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比如 ,在 识别 出 标识 符 position 之 后 ,全 局 变量 sym 的 值 被 置 为 ident,id 的 值 被 置 为 
“position”; 在 识别 出 无 符号 整数 60 之 后 ,全 局 变量 sym 的 值 被 置 为 number, num 的 值 被 
置 为 整数 值 60。 

getsym() 逐 个 读 取 下 面 的 字符 ,然后 将 它们 拼 成 下 一 个 有 意义 的 单词 ,返回 相应 的 单 
词 符号 。 图 3. 2 描述 了 PLV0 语言 的 词法 规则 ,可 用 于 指导 单词 识别 的 过 程 。 

字母 数字 


空格 
Start KQ 字母 .rams B pumas 
数字 


数字 H HF GO) arsen 
—-O——-O mas 
= 一 ~ 〇 小 于 等 于 号 


af 小 于 号 


> 
大 于 等 于 号 
= 大 于 号 


A -Ọ sens 


图 3.2 PL/O 词法 规则 状态 转换 图 


值得 注意 的 是 ,在 识别 字母 数字 串 的 单词 后 如 何 区 分 是 标识 符 还 是 保留 字 。 常 采取 的 
方法 是 预 设 一 个 保留 字 表 ,通过 查 表 来 确定 是 否 保留 字 。 比 如 ,在 PL/0 编译 程序 中 定义 如 
下 保留 字 表 : 

/* 设置 保留 字 名 字 ,按照 字 母 顺序 排列 ,便于 折 半 查找 */ 

strepy(&(word[0][0]) ," begin"); 

strepy( &(word[1][0]) ," call"); 


strcpy( & (wordl12][0]) ."write"); 
/* 设置 保留 字 的 单词 种 别 * / 
wsym[0 ]=beginsym; 
wsym[1]=callsym; 


wsym[12]=writesym; 


另外 ,在 识别 双 符号 运算 符 之 类 的 单词 时 ,要 注意 到 可 能 需要 进行 字符 退还 。 例 如 ,在 
读 取 字 符 二 后 ,如 果 下 一 字符 是 = , 则 所 识别 的 单词 是 小 于 等 于 号 二 = ;否则 ,识别 的 单词 是 
小 于 号 过 ,但 此 时 要 注意 退还 已 经 读 到 的 一 个 非 过 字符 , 即 需要 保证 下 一 次 读 到 的 字符 仍然 
是 那个 非 二 字符 。 
下 面 是 词法 分 析 函 数 getsym( ) 的 一 个 代码 片段 : 
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int getsym() /* 词法 分 析 , 获 取 一 个 符号 * / 
{ 


while (ch=="||ch==10]|ch==13]] ch==9) /* 忽 略 空格 .换行 . 回 车 和 Tab * / 


getchdo; /* 取 下 一 字符 到 ch* / 
} 
if (ch>='a' & 8. ch 一 一 2 / * 标识 符 或 保留 字 以 a 一 z 开 头 */ 


i /* 标 识 符 或 保留 字 的 字母 数字 串 置 于 字符 数组 ax / 
strcpy(id,a); / * 设置 标识 符 或 保留 字 名 字 串 idx / 


: /* 在 保留 字 表 wsym 中 搜索 当前 符号 是 否 为 保留 字 * / 
G2) /* 是 保留 字 */ 
{ 
sym=wsym[k]; /* 置 保留 字 的 单词 种 别 至 sym * / 
} 
else /* 搜索 失败 ,不 是 保留 字 */ 
{ 
sym= ident; /* 置 单词 种 别 全 局 量 sym 为 ident, 即 标识 符 * / 
} 
j 
else 


if Cch>=0' && ch<=9) /* 检测 是 否 为 数字 : 以 0~9 开头 */ 
{ 


sym=number; /* 置 单词 种 别 全 局 量 sym 为 number, 即 无 符号 整数 * / 
H /* 获取 数字 并 转换 为 十 进 制 整数 值 , 置 于 num * / 
it Ge) /* 数字 的 位 数 超出 允许 的 范围 ,报错 * / 
{ 
error(30); 
} 
i 
else /* 不 是 数字 */ 
{ 
if (ch=="':) / * 检测 赋值 符号 * / 
{ 
getchdo; 
if (ch=='=") 


{ 
sym=becomes; / * 置 单词 种 别 为 number, 即 赋值 符号 * / 
getchdo; 

} 

else 


{ 
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sym 一 nul; /* 不 能 识别 的 符号 * / 


if (ch=='<) /* 检测 小 于 或 小 于 等 于 符号 * / 
{ 
getchdo; 
if (ch= ='=9 
{ 
sym=leq; /*# 置 单词 种 别 为 leq, 即 小 于 等 于 符号 * / 
getchdo; 


sym=lss; /* 置 单词 种 别 为 lss, 即 小 于 符号 * / 


if(ch==>)  /* 检测 大 于 或 大 于 等 于 符号 * / 


/* 类 似 于 检测 小 于 等 于 符号 的 情形 * / 
/* 置 单词 种 别 为 geq a gtr * / 


{ /* 当 符号 不 满足 上 述 条 件 时 ,全 部 按照 单字 符 符号 处 理 * / 
sym 一 ssym[ch]; 


} 
} 
return 0; 


) 


这 一 代码 片段 可 以 体现 函数 getsym() 的 基本 流程 ,其 控制 过 程 的 几 个 重要 方面 如 下 : 

(1) 识别 空格 。 空 格 在 词法 分 析 时 是 一 种 不 可 缺少 的 界 符 , 而 在 语法 分 析 时 则 是 无 用 
的 ,所 以 需要 滤 掉 。 

(2) 识别 保留 字 和 标识 符 。 如 前 所 述 , PL/0 编译 程序 中 定义 了 一 个 保留 字 表 word, 
对 每 个 字母 开头 的 字母 数字 字符 串 要 查 这 个 表 。 保 留 字 表 按 字母 顺序 存放 ,词法 分 析 程 序 
使 用 折 半 查找 。 若 可 以 查 到 , 则 识别 为 保留 字 , 将 对 应 的 单词 种 别 ( 存 于 wsym 表 中 ) 放 在 
sym 中 (如 {的 对 应 值 为 ifsym.then 的 对 应 值 为 thensym) ;车 查 不 到 , 则 认为 是 用 户 定义 
的 标识 符 , 将 sym 置 为 ident, 而 将 代表 标识 符 名 字 的 串 存 放 于 id 中 。 
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(3) 拼 数 。 当 扫描 到 数字 串 时 ,将 字符 串 形式 的 十 进 制 数 转换 成 机 内 表示 的 二 进 制 数 ， 
然后 把 单词 种 别 number 放 在 sym 中 ,数值 本 身 的 值 存放 在 num 中 。 

(4) 其 他 单字 符 或 双 字 符 的 界 符 、 运 算 符 识别 后 将 相应 的 单词 种 别 送 至 sym 中 。 

函数 getsym( ) 在 需要 取 下 一 字符 时 调用 getchdo, 它 是 对 函数 getch ) 的 包装 。getch( ) 
的 基本 功能 是 : 略 过 空格 , 读 取 一 个 字符 ;每 次 读 入 源 文件 的 一 行 , 存 入 line 缓冲 区 ,line 被 
getsym 取 空 后 再 读 一 行 。 这 里 不 必 对 getch( ) 的 源码 作 进一步 解释 。 


3.3 单词 的 形式 化 描述 工具 


如 3.1.4 节 所 述 , 描 述 一 个 程序 设计 语言 的 词法 规则 ,通常 需要 借助 形式 化 或 半 形 式 化 
的 描述 工具 。 本 节 主 要 介绍 有 限 状 态 自 动机 、 正 规 表 达 式 以 及 正规 文法 等 形式 化 描述 工具 
的 基础 理论 和 方法 ,在 此 基础 上 读者 可 以 理解 词法 分 析 程 序 自动 构造 工具 的 一 般 原理 和 
方法 。 
3.3.1 正规 文法 


正规 文法 也 称 为 3 型 文法 G=(VN,Vr,S,P), 其 尸 中 的 每 一 条 规则 都 有 下 述 形式 : A 一 
<B 或 A->a, 其 中 A,BEVN,aEVI 。 正 规 文 法 所 描述 的 是 Vr 上 的 正规 集 。 

程序 设计 语言 中 的 几 类 单词 可 用 下 述 规则 描述 

《标识 符 ) 一 !|!( 字 母 数字 》 

(字母 数字 一 /|d|7( 字 母 数字 ?|d( 字 母 数字 》 

(无 符号 整数 ;> 一 d1d( 无 符号 整数 》 

(运算 符 ) 一 十 | 一 |* |/|=1= (等 号 )… 

(等 号 ) 一 = 

CHAP 1s Dee 
其 中 /表示 a 一 z 中 的 任 一 英文 字母 d 表示 0 一 9 中 的 任 一 数字 。 

关键 字 也 是 一 种 单词 ,一般 关键 字 都 是 由 字母 构成 的 , 它 的 描述 也 极 容易 ,实际 上 ,关键 
字 集 合 是 标识 符 集合 的 子 集 。 

比较 复杂 的 单词 ,如 无 符号 实数 25. 55e 十 5 和 2. 1 等 ,它们 可 以 由 例 3. 1 的 规则 
描述 。 

例 3.1 

《无 符号 数 ) 一 d( 余 留 无 符号 数 )|. (十 进 小 数 ) |e( 指 数 部 分 》 

《 余 留 无 符号 数 ) 一 d( 余 留 无 符号 数 )|. (十 进 小 数 ) |e( 指 数 部 分 ) le 

《十 进 小 数 ) 一 d( 余 留 十 进 小 数 》 

《 余 留 十 进 小 数 ) 一 e( 指 数 部 分 )1d( 余 留 十 进 小 数 ) |e 

(指数 部 分 ;一 d( 余 留 整 指 数 ) | 十 ( 整 指 数 )| 一 ( 整 指 数 ) | 

《 整 指数 一 d( 余 留 整 指数 》 

《 余 留 整 指 数 ) 一 di( 余 留 整 指数 >|s 
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3.3.2 正规 式 


正规 式 也 称 正则 表达 式 , 也 是 表示 正规 集 的 工具 。 它 是 用 以 描述 单词 符号 的 又 一 方便 
工具 。 

下 面 是 正规 式 和 它 所 表示 的 正规 集 的 递归 定义 。 设 字母 表 为 ,辅助 字母 表 允 =={， 
es lea eas Ibs 

(1) e 和 名 都 是 上 的 正规 式 , 它 们 所 表示 的 正规 集 分 别 为 {e} 和 2。 

(2) 任何 acEY,a 是 上 的 一 个 正规 式 , 它 所 表示 的 正规 集 为 {a}。 

(3) 假定 el 和 es 都 是 三 上 的 正规 式 , 它 们 所 表示 的 正规 集 分 别 为 工 (ce 7) 和 工 (e ), 那 
么 ,(e1) .erles.e1， es 和 ef 也 都 是 正规 式 ,它们 所 表示 的 正规 集 分 别 为 LC(e)、L(e)U 
Llei).L(e)L(es)A(L(e))™ 。 

CA) 仅 由 有 限 次 使 用 上 述 3 个 步骤 而 定义 的 表达 式 才 是 三 上 的 正规 式 , 仅 由 这 些 正 规 
式 所 表示 的 符号 串 的 集合 才 是 三 上 的 正规 集 。 

其 中 的 “1” 读 为 “或 "(也 有 使 用 “十 ”代替 “1” 的 );*. ” 读 为 连接 ”;“ * ” 读 为 “ 闭 包 ”( 即 任 
意 有 限 次 的 自重 复 连接 )。 在 不 致 混淆 时 ,括号 可 省 去 ,但 规定 算 符 的 优先 顺序 为 先 * x* ”, 再 
“HU |". MERE TES. ”一般 可 省 略 不 写 .“* ”“.” 和 “|? 都 是 左 结合 的 。 

例 3.2 $ S=(a,b} ,三 上 的 正规 式 和 相应 的 正规 集 的 例子 如 下 : 


正规 式 正 规 集 


a {a} 

alb {a+b} 

ab {ab} 

(alb)(alb) {aa,ab,ba,bb} 

a’ {evavaa,…), 即 任意 个 a 的 串 

(alb)* {e,a,b,aa,ab-+} , BU TA a,b HRH EB 


(al b)* (aa bb) (al b)* X 上 所 有 含有 两 个 相继 的 a 或 两 个 相继 的 组 成 的 串 


例 3.3 令 5={d,.,e; 十 ,一 }, 则 5 上 的 正规 式 d* dd’ |e)(e(+|—le)dd* |e) RA 
的 是 无 符号 数 。 其 中 4 为 0 一 9 中 的 数字 。 例 如 ,2、12. 59、3. 6e2 和 471. 88e 一 1 等 都 是 该 
正规 式 所 表示 的 集合 中 的 元 素 。 

若 两 个 正规 式 ce 和 e 所 表示 的 正规 集 相 同 , 则 说 ce 和 es 等 价 , 写 作 ei 二 eo。 例如 ,车 
e:=alb,e,=bla WA ce, =e2, BM alb=bla, KM.b(ab)* =(ba)* b,(alb)* =(a*b*)*, 

BE .st 为 正规 式 , 正 规 式 服从 的 代数 规律 如 下 : 


(1) rls=slr “或 ”的 交换 律 

(2) r|(slo 一 Crls)1z “或 "的 可 结合 律 

(3) (rs)t=rst) “连接 ”的 可 结合 律 
(4) r(s|O=rslrt.(s|Or=srler 分 配 律 

(5) er=r,re=r e 是 “连接 ”的 恒 等 元 素 
(6) rlr=r “或 ”的 抽取 律 


程序 设计 语言 中 的 单词 都 能 用 正规 式 来 定义 。 在 例 3. 3 中 给 出 了 定义 无 符号 数 的 正规 
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式 。 又 如 ,3={ 字 母 ,数字 } 上 的 正规 式 ea 二 字母 (字母 | 数字 )* 表示 的 是 所 有 标识 符 的 集 
合 , 或 者 用 ! 代表 字母 ,d 代表 数字 ,5={1,d}, 即 e =1U|d)* o ERR e =dd* 定义 了 无 
符号 整数 。 


3.3.3 正规 文法 和 正规 式 的 等 价 性 


一 个 正规 语言 可 以 由 正规 文法 定义 ,也 可 以 由 正规 式 定义 ,对 任意 一 个 正规 文法 ,存在 
一 个 定义 同一 个 语言 的 正规 式 ;反之 ,对 每 个 正规 式 , 存 在 一 个 生成 同一 个 语言 的 正规 文法 ， 
有 些 正 规 语言 很 容易 用 文法 定义 ,有 些 正规 语言 更 容易 用 正规 式 定义 ,本 节 介绍 两 者 间 的 转 
换 ,从 结构 上 建立 它们 的 等 价 性 。 

1. 将 正规 式 转换 成 正规 文法 

将 上 的 一 个 正规 式 r 转换 成 文法 G 二 (Vs,Vr,S,P)。 令 Vr 二 了, 确定 产生 式 和 Vy 
的 元 素 用 如 下 办 法 : 

选择 一 个 非 终结 符 S 生成 类 似 产生 式 的 形式 : Sor HH S 定 为 G 的 识别 符号 。 为 表 
述 方 便 , 将 Sr 称 作 正 规 式 产 生 式 ,因为 在 王 的 右 部 中 含有 ".”、“ * ”或 |” 等 正规 式 符号 ， 
不 是 V 中 的 符号 。 

车 z+ Aly 都 是 正规 式 , 对 形 如 A 一 zy 的 正规 式 产生 式 , 重 写成 A 一 zB,B 一 y 两 个 产生 
式 , 其 中 B 是 新 选择 的 非 终 结 符 , 即 BEVN。 

对 形 如 Aa” y 的 正规 式 产生 式 , 重 写 为 

A><xB 

A>y 

B>xB 

Boy 
其 中 B 为 一 个 新 的 非 终结 符 。 

对 形 如 A 一 zly 的 正规 式 产 生 式 , 重 写 为 

Ar 

Ary 

不 断 利 用 上 述 规则 做 变换 ,直到 每 个 产生 式 都 符合 正规 文法 的 形式 。 

例 3.4 将 r=alalqd) “转换 成 相应 的 正规 文法 。 

令 S 是 文法 的 开始 符号 ,首先 形成 S-~a(ald) ,然后 形成 S>aA 和 A 一 (ald)* ,再 变 
换 形 成 

S>aA A>(al\d)B 

A>e B 一 (ald)B 

B>e 
进而 变换 为 全 部 符合 正规 文法 产生 式 的 形式 : 

S>aA B-aB 

A>aB B>dB 

A—>dB Boe 

Ae 
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2. 将 正规 文法 转换 成 正规 式 
这 一 转换 过 程 基本 上 是 上 述 过 程 的 逆 过 程 , 最 后 只 剩 下 一 个 开始 符号 定义 的 正规 式 。 
其 转换 规则 列 于 表 3. 1。 
表 3.1 正规 文法 到 正规 式 的 转换 规则 


文法 产生 式 E 规 R 
规则 1 A>zB Boy A=xy 
规则 2 Asas Acay 
规则 3 A>r A—>y A=zly 


例 3.5 文法 GLS] 如 下 : 
SaA 
Sa 
A—>aA 
A—>dA 
A—>a 
A>d 
首先 有 
S=aAla 
A=(aAldA)|(ald) 
再 将 A 的 正规 式 变换 为 A 二 (ald)Al(ald) ,又 变换 为 A=(ald)* ald) PER A 右 端 代入 
S 的 正规 式 得 
S=alald)* (ald)la 
再 利用 正规 式 的 代数 变换 可 依次 得 到 
S=alald)* (ald) |e 
S=alald)* 
即 a(ald)* HIR. 


3.4 有 穷 自动 机 


有 穷 自 动机 (也 称 有 限 自动 机 ) 作 为 一 种 识别 装置 ,能 准确 地 识别 正规 集 , 即 识别 正规 文 
法 所 定义 的 语言 和 正规 式 所 表示 的 集合 。 引 入 有 穷 自动 机 理论 , 正 是 为 词法 分 析 程 序 的 自 
动 构造 寻找 特殊 的 方法 和 工具 。 

有 穷 自动 机 分 为 两 类 : 确定 的 有 穷 自动 机 (Deterministic Finite Automata, DFA) 和 不 
确定 的 有 穷 自动 机 (Nondeterministic Finite Automata, NFA)。 下 面 分 别 给 出 确定 的 有 穷 
自动 机 和 不 确定 的 有 穷 自动 机 的 定义 ,与 其 有 关 的 概念 .不 确定 的 有 穷 自动 机 的 确定 化 以 及 
确定 的 有 穷 自 动机 的 化 简 等 算法 。 


3.4.1 确定 的 有 穷 自动 机 (DFA) 


一 个 确定 的 有 穷 自动 机 M 是 一 个 五 元 组 : 
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M = (K.2.f.S.Z) 
其 中 : 

(1) K 是 一 个 有 穷 集 , 它 的 每 个 元 素 称 为 一 个 状态 。 

(2) 王 是 一 个 有 穷 字母 表 , 它 的 每 个 元 素 称 为 一 个 输入 符号 ,所 以 也 称 5 为 输入 符 
(3) f ERKKO E KX SK 上 的 映像 。 例 如 ,f(k;,a) 二 k;(k;EK,k;EK), 就 意味 
着 ,当前 状态 为 k;、 输 入 字符 为 a 时 ,将 转换 到 下 一 状态 &;, 把 k; PRAE k: 的 一 个 后 继 状 态 。 

(4) SEK ,是 唯一 的 一 个 初 态 。 

(5) ZOK ,是 一 个 终 态 集 , 终 态 也 称 可 接受 状态 或 结束 状态 。 

例 3.6 DFA M=({S,U,V,Q}),{a,b},f,S,{Q}), 其 中 /定义 为 

f(S,a) =U fU.a)=Q fWV.a)=U f(Q,a)=Q 
f(S.b) =V fU.b)=V f(V.b>=Q f(Q.b)=Q 

一 个 DFA 可 以 表示 成 一 个 状态 图 (或 称 状态 转换 图 )。 假 定 DFA MERA m 个 状态 ， 
nn 个 输入 符号 ,那么 这 个 状态 图 含有 个 结 点 ,每 个 结 点 最 多 及 n 个 弧 射 出 ,整个 图 含有 唯 
一 一 个 初 态 结 点 和 若干 个 终 态 结 点 , 初 态 结 点 冠 以 “一 ”或 标 以 “一 ”, 终 态 结 点 用 双 圈 表示 或 
标 以 “十 ”, 若 SCi) Sk; WARE k 到 状态 结 点 kj 夯 标 记 为 a 的 弧 。 

例 3.6 中 的 DFA 的 状态 图 表示 如 图 3. 3 所 示 。 

一 个 DFA 还 可 以 用 一 个 矩阵 表示 ,该 矩阵 的 行 表 示 状 态 , 列 表示 输入 符号 ,矩阵 元 素 
表示 相应 状态 和 输入 符号 将 转换 成 的 新 状态 ,即行 a 列 为 1(k,a) 的 值 。 可 以 用 “二” 标明 
初 态 ;否则 第 一 行 即 是 初 态 , 相 应 终 态 行 在 表 的 右 端 标 以 1, 非 终 态 标 以 0。 例 3. 5 中 的 
DFA 的 矩阵 表示 如 图 3.4 所 示 。 


符号 
U v 0 
Q v 0 
U Q 0 
Q Q 1 
图 3.3 状态 图 表示 图 3.4 矩阵 表示 


对 于 3“ 中 的 任何 符号 串 上 , 若 存在 一 条 从 初 态 结 点 到 某 一 终 态 结 点 的 道路 ,上 且 这 条 路 
上 所 有 弧 的 标记 符 连接 成 的 符号 串 等 于 1, 则 称 1 可 为 DFA M 所 接受 , 若 M 的 初 态 结 点 同 
时 又 是 终 态 结 点 , 则 空 字 可 为 M 所 识别 (接受 )。 

可 换 一 种 方式 叙述 如 下 : 

FEX, f(SO=P.H S H DFA M 的 开始 状态 ,PEZ,2Z 为 终 态 集 。 则 称 1 可 为 
DFA M 所 接受 (识别 ) 。 

为 了 描述 一 个 符号 串 1 可 为 DFA M 所 接受 ,需要 将 转换 函数 扩充 ; 设 QE 开 ,函数 
Sf (Qs) 一 Q, 即 ,如 果 输 入 符号 是 空 串 , 则 仍 停留 在 原来 的 状态 上 ;还 需要 借助 下 述 定义 : 一 
个 输入 符号 串 1( 将 它 表示 成 ni WÉR HEP n EX ES), E DFA M 上 运行 的 定 
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义 为 
f(Q.tt.) 一 FCFGQ)t) 
例如 , 试 证 baab 可 为 例 3.6 的 DFA 所 接受 。 

因为 f(S.baab) = f(f(S.b) .aab) = f (V aab) = f(f(V a) ab) = f(U .ab) = f (f(s 
a) +b) = f(Q.b)=Q.Q 属于 终 态 , 得 证 。 

DFA M 所 能 接受 的 符号 串 的 全 体 ( 字 的 全 体 ) 记 为 工 (M) 。 

结论 5 上 的 一 个 符号 串 集 VS3" 是 正规 的 , 当 上 且 仅 当 存 在 一 个 上 的 确定 有 穷 自动 
机 M, 使 得 V=L(M)。 

DFA 的 确定 性 表现 在 转换 函数 S: KX SK 是 一 个 单 值 函数 ,也 就 是 说 ,对 任何 状态 
kEK 和 输入 符号 a E53,f(k,a) 唯 一 地 确定 了 下 一 个 状态 。 从 状态 转换 图 来 看 , 若 字 母 表 
SAA n 个 输入 符号 ,那么 任何 一 个 状态 结 点 最 多 有 半 条 弧 射出 ,而且 每 条 弧 以 一 个 不 同 的 
输入 符号 标记 。 


3.4.2 不 确定 的 有 穷 自动 机 (NFA) 


一 个 不 确定 的 有 穷 自动 机 M 是 一 个 五 元 组 : 
M = (K.S.f.S,Z) 

其 中 : 

O) K 是 一 个 有 穷 集 , 它 的 每 个 元 素 称 为 一 个 状态 。 

(2) 5 是 一 个 有 穷 字 母 表 , 它 的 每 个 元 素 称 为 一 个 输入 符号 。 

(3) /是 一 个 从 K XI 到 K 的 全 体 子 集 的 映像 , 即 K X53" 一 2* ,其 中 2* 表示 K 的 

(4) SSK ,是 一 个 非 空 初 态 集 。 

(5) ZCK ,是 一 个 终 态 集 。 

一 个 含有 m 个 状态 和 个 输入 符号 的 NFA 可 表示 成 一 张 状态 转换 图 ,这 张 图 含有 
m 个 状态 结 点 ,每 个 结 点 可 射出 若干 条 箭 弧 与 别 的 结 点 相连 接 , 每 条 弧 用 5” 中 的 一 个 串 作 
标记 ,整个 图 至 少 含 有 一 个 初 态 结 点 以 及 若干 个 终 态 结 点 。 

例 3.7 一 个 NFA M=({0,1,2,3,4),{a,b),f,{0},{2,4)), 其 中 : 

f(0,4a)=1{0,3} 

f(0,6)={0,1) 

f(1,0)= {2} 

f(2,a)={2} 

f(2.b)={2} 

f(3,a)={4} 

f(4,a)={4} 

f(4.b)= {4} 
它 的 状态 图 表示 如 图 3.5 所 示 。 

一 个 NFA 也 可 以 用 一 个 和 矩阵 表示 。 另 外 一 个 输入 符号 a, 
HE NFA 上 “运行 ”的 定义 也 类 似 于 对 DFA 给 出 的 形式 。 图 3. 


NFA M 的 状态 图 
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留 给 读者 自己 练习 。 

HFS 中 的 任何 一 个 串 1, 若 存在 一 条 从 某 一 初 态 结 点 到 某 一 终 态 结 点 的 道路 , 且 这 
条 道路 上 所 有 弧 的 标记 字 依 序 连接 成 的 串 ( 不 理 皮 那些 标记 为 s 的 弧 ) 等 于 上 , 则 称 上 可 为 
NFA M 所 识别 ( 读 出 或 接受 ) 。 若 M 的 某 些 结 点 既是 初 态 结 点 又 是 终 态 结 点 ,或 者 存在 一 
条 从 某 个 初 态 结 点 到 某 个 终 态 结 点 的 道路 ,那么 空 字 可 为 M 所 接受 。 

例 3.7 中 的 NFA M 所 能 识别 的 是 那些 含有 相继 两 个 a 或 相继 两 个 2 的 串 。 

显然 DFA 是 NFA 的 特例 。 对 于 每 个 NFA M, 存 在 一 个 DFA M' ,使 得 工 (M) = 
工 (M') 。 对 于 任何 两 个 有 穷 自动 机 M AM A LCM) =L(M) , 则 称 M 与 M' 是 等 价 的 。 

3.4.3 节 介 绍 一 种 算法 ,对 于 给 定 的 NFA M, 构 造 其 等 价 的 DFA M 。 


3.4.3 NFA 转换 为 等 价 的 DFA 


在 有 穷 自 动机 的 理论 里 ,有 这 样 的 定理 : 设 工 为 一 个 由 不 确定 的 有 穷 自 动机 接受 的 集 
合 , 则 存在 一 个 接受 工 的 确定 的 有 穷 自 动机 。 这 里 不 对 定理 进行 证 明 , 只 介绍 一 种 算法 ,将 
NFA 转换 成 接受 同样 语言 的 DFA。 这 种 算法 称 为 子 集 法 。 

为 一 个 NFA 构造 相应 的 DFA 的 基本 想法 是 让 DFA 的 每 一 个 状态 对 应 NFA 的 一 组 
状态 。 也 就 是 让 DFA 使 用 它 的 状态 去 记录 在 NFA 读 入 一 个 输入 符号 后 可 能 达到 的 所 有 
状态 ,在 读 和 人 输入 符号 串 aara, 之 后 ,DFA 处 在 那样 一 个 状态 ,该 状态 表示 这 个 NFA 的 
状态 的 一 个 子 集 TT 是 从 NFA 的 开始 状态 沿 着 某 个 标记 为 aaea, 的 路 径 可 以 到 达 的 
那些 状态 构成 的 。 

介绍 子 集 法 之 前 先 定义 状态 集合 了 的 两 个 运算 : 

(1) 状态 集合 I 的 e- 闭 包 , 表 示 为 eclosure( 了 ) ,定义 为 一 个 状态 集 ,是 状态 集 T 中 的 任 
何 状态 S 经 任意 条 e 弧 而 能 到 达 的 状态 的 集合 。 

回顾 在 前 面 章节 对 转换 函数 的 扩充 : 如 输入 符号 是 空 串 , 则 自动 机 仍 停留 在 原来 的 状 
态 上 ,显然 ,状态 集合 工 的 任何 状态 S 都 属于 e-closure(1)。 

(2) 状态 集合 I 的 a 弧 转 换 , 表 示 为 move(T,a) ,定义 为 状态 集合 本 其 中 本 是 所 有 那些 
可 从 了 中 的 某 一 状态 经 过 一 条 a 弧 而 到 达 的 状态 的 全 体 。 

下 面 用 图 3.6 的 NFA N 的 状态 集合 来 理解 上 述 两 个 运算 。 


-000 


3.6 NFA N 的 状态 图 


e-closure(0)={0,1,2,4,7} 
即 {0,1,2,4,7} 中 的 任 一 状态 都 是 从 状态 0 经 任意 条 e 弧 可 到 达 的 状态 , 令 {0,1,2,4,7} 一 
A, 则 move(A,a) 王 {3,8} ,因为 在 状态 0,1,2,4 和 7 中 ,只 有 状态 2 和 7 有 a 弧 射 出 ,分 别 
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到 达 状 态 3 和 8。 

而 e-closure({3,8})={1,2,3,4,6,7,8}. 

对 于 一 个 NFA N=(K.2, fK KOKK & 1K 的 一 个 子 集 , 不 妨 设 I={S,, 
Ss,…，,S;} ,a 是 中 的 一 个 元 素 , 则 move(T,a) = f(S,.a) U f(S, 3a) U U FCS; sa) o 

假设 NFA N= 二 (K,3,f,K。,K,) 按 如 下 办 法 构造 一 个 DFA M=(S,3,D,So,S,) 使 得 
L(M)=L(N): 

(1) M 的 状态 集 S 由 开 的 一 些 子 集 组 成 (构造 K 的 子 集 的 算法 见 图 3.7)。 用 [Si， 
S。，,… ,Sj] 表 示 S 的 元 素 , 其 中 Si,S,,…,S; EK 的 状态 。 并 且 约 定 ,状态 S ,S: ,…,Si 是 
按 某 种 规则 排列 的 , 即 对 于 子 集 S={S; ,Si) 来 说 ,S 的 状态 就 是 [SiS;]。 


D 开始 , 令 e-closure(K。) 为 C 中 唯一 成 员 , 并 且 它 是 未 被 标 

记 的 。 
@ While(C 中 存在 尚未 被 标记 的 子 集 T) do 
(tric Ts 

for 每 个 输入 字母 a do 
{U *=e-closure (Move(T,a)); 
if U RH C 中 then 
将 U 作为 未 被 标记 的 子 集 加 在 C 中 


图 3.7 子 集 构造 算法 
(2) MAN 的 输入 字母 表 是 相同 的 , 即 是 3。 
(3) 转换 函数 D 是 这 样 定义 的 。 
D(LS, ,S: ,…,Si],a) = [Ri ,R,,……,R,] 

其 中 se-closure(move([S ,S ,Si],a)) 一 [LR ,R: Ri]。 

(A) Sy =e-closure( Ky) 9 M 的 开始 状态 。 

(5) S= (CS; ,St,…,S.], 其 中 [Si,St,…,S.]ES 且 (Si Spee SSK, AD). 

图 3.7 是 构造 NFA N 的 状态 K 的 子 集 的 算法 。 假 定 所 构造 的 子 集 族 为 C, 即 C= 
(Ty Te TO ,其 中 TT,Ts,…,T; 为 状态 K 的 子 集 。 

例 3.8 应 用 图 3.7 的 算法 对 图 3.6 的 NFA N 构造 子 集 , 步 骤 如 下 : 

(1) 首先 计算 s-closure(0) , 令 To =e-closure(0) = {0.1.2.4.7}.T, 未 被 标记 , 它 现在 
是 子 集 族 C 的 唯一 成 员 。 

(2) 标记 Ty; Tı =eclosure(move(Ty.a)) = {1,.2.3,4,6.7.8}.¥% Ti MAC 中 ， 
Ti 未 被 标记 。 

4 T, =e closure(move( To .0)) 一 (1.2.4.5.6.7} ,将 T MA C 中 , 它 未 被 标记 。 

(3) 标记 T, ;计算 eclosure(move( T, ,a)) ,结果 为 {1,2,3,4,6,7,8}, 即 T: Ti BE 
CH, 

计算 © closure(move(T; ,0)) ,结果 为 {1,2,4.5,6,7,9}, 令 其 为 Ti ,加 至 C 中 , 它 未 被 
标记 。 

让 


(4) 标记 T: ,计算 sclosure(move(T: ,a)) ,结果 为 {1,2,3,4,6,7,8}, 即 Ti, T 已 在 
Ch, 
计算 &closure(move(T; .b)) ,结果 为 {1,2.,4,5,6,7}, 即 T,.T, 已 在 C 中 。 
(5) 标记 T: ,计算 e closure(move(T; ,a) ) ,结果 为 {1,2,3,4,6,7,8}, 即 Tio 
计算 &closure(move(T; ,0) ) ,结果 为 {1,2,4,5,6,7,10}, 令 其 为 了 ,加 入 C 中 ,T 未 
被 标记 。 
(6) 标记 T, ,计算 eclosure(move(T, ,a) ) ,结果 为 {1,2,3,4,6,7,8}, 即 也。 
计算 & closure(move(T, ,0) ) ,结果 为 {1,2,4,5,6,7}, 即 Tz. 
至 此 ,算法 终止 , 共 构 造 了 5 个 子 集 : 
To={0,1,2,4,7} 
T={1,2,3,4,6,7,8} 
T,={1,2,4,5,6,7} 
T;={1,2.4,5,6,7,9} 
Ty ={1,2,4,5,6,7,10} 
那么 图 3.6 的 NFA N 构造 的 DFA M 如 下 : 
(1) S={[T 1.01. ].0T2],0Ts 1,07. J} 
(2) Z= {a,b} 
(3) DLT) J.a)=[T,] 
DLT. ].6)=[T2] 
D([T,],a)=[T,] 
DET: ],6)=(Ts] 
D(L[T,],a)=LT,] 
D({T2],6)=[T2 ] 
D(LT:],a)=[T] 
D([T;],6)=CT,] 
D([T,],a)=[T1] 
D(LT,].6)=CT2] 
(4) So 一 [To] 
(5) S,=[T,] 
AEF BS AR MHOT. ICT: 1.072 1.073]. 
[T,] 重 新 命名 ,用 0、1、2、3、4 分 别 表示 ,该 DFA M 
的 状态 转换 图 如 图 3. 8 所 示 。 图 3.8 DFA M 的 状态 图 


3.4.4 确定 有 穷 自 动机 的 化 简 


所 谓 一 个 有 穷 自 动机 是 化 简 了 的 ,就 是 说 它 没有 多 余 状 态 并 且 它 的 状态 中 没有 两 个 是 
互相 等 价 的 。 一 个 有 穷 自 动机 可 以 通过 消除 无 用 状态 和 合并 等 价 状态 而 转换 成 一 个 与 之 等 
价 的 最 小 状态 的 有 穷 自动 机 。 

所 谓 有 穷 自动 机 的 无 用 状态 ,是 指 这 样 的 状态 : 从 该 自动 机 的 开始 状态 出 发 ,任何 输入 
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串 也 不 能 到 达 的 那个 状态 ,或 者 从 这 个 状态 没有 通路 到 达 终 态 。 例 如 ,图 3. 9(a) 的 有 穷 自 
动机 M 中 的 状态 sy 便 是 无 用 状态 。 


0 1 
so | si ss | 0 0 1 
aj os | 1 Pen |e (ery 
2j ss | 1 Sy see ay | 0 1 
s | Ss s7 | 0 Se | se s5 | 1 So] si ss | 0 
Se | Ss 55 | O sls 87 | 0 a| |l 
ss] ss 1 | 0 ala alo S| S285 | 1 
s | Ss So | 1 üla sli ss|s 5|0 
sjo 1 | 1 žá os | 1 ss | ss 1 | 0 
s |s 55 | 0 se | ss se | 0 sr | 5 1 | 1 

(a) (b) (©) 


图 3.9 消除 多 余 状态 

对 于 给 定 的 有 穷 自动 机 ,如 果 它 含有 无 用 状态 ,可 以 非常 简单 地 将 无 用 状态 消除 ,而 得 
到 与 它 等 价 的 有 穷 自动 机 。 例 如 ,图 3.9(a) 的 状态 s 连同 状态 s, 射出 的 两 个 弧 消 掉 , 得 到 
如 图 3.9(b) 的 有 穷 自动 机 。 而 在 图 3. 9(b) 中 ,状态 ss 和 ss 也 是 不 能 从 开始 状态 经 由 任何 
输入 串 而 到 达 的 ,也 将 它们 连同 由 它们 射出 的 弧 消 除 而 得 到 如 图 3. 9(c) 的 有 穷 自 动机 。 

在 有 穷 自动 机 中 ,两 个 状态 s 和 1 等 价 的 条 件 是 以 下 两 个 : 

(1) 一 致 性 条 件 一 一 状态 s 和 1 必须 同时 为 可 接受 状态 或 不 可 接受 状态 。 

(2) 蔓延 性 条 件 一 一 对 于 所 有 输入 符号 ,状态 * 和 状态 1 必须 转换 到 等 价 的 状态 里 。 

如 果 有 穷 自 动机 的 状态 * 和 : 不 等 价 , 则 称 这 两 个 状态 是 可 区 别 的 。 显 然 在 图 3. 8 的 
DFA M 中 ,状态 0 和 4 是 可 区 别 的 ,因为 状态 4 是 可 接受 态 ( 终 态 ) ,而 0 是 不 可 接受 态 。 又 
如 状态 2 和 3 是 可 区 别 的 ,因为 状态 2 读 出 后 到 达 2, 状 态 3 读 出 和 后 到 达 4, 而 2 和 4 是 
不 等 价 的 。 

下 面 介 绍 一 个 方法 ,叫做 “分 割 法 ”, 来 把 一 个 DFA( 不 含 多 余 状 态 ) 的 状态 分 成 一 些 不 
相交 的 子 集 ,使 得 任何 不 同 的 两 个 子 集 的 状态 都 是 可 区 别 的 ,而 同一 子 集 中 的 任何 两 个 状态 
都 是 等 价 的 。 通 过 将 此 方法 施 于 图 3. 10 的 DFA M 上 来 做 一 介绍 。 

例 3.9 将 图 3. 10 中 的 DFA M 最 小 化 。 

首先 将 M 的 状态 分 成 两 个 子 集 : 一 个 由 终 态 (可 接受 态 ) 组 成 , 另 一 个 由 非 终 态 组 成 ， 
这 个 初始 划分 为 P= 二 ({1,2,3,4),{5,6,7)) ,显然 第 1 个 子 集中 的 任何 状态 都 不 与 第 2 个 
子 集中 的 状态 等 价 。 

现在 观察 第 一 个 子 集 {1,2,3,4} ,在 读 人 输入 符号 a 后 ,状态 3 和 4 分 别 转换 为 第 1 个 
子 集中 所 含 的 状态 1 和 4, 而 1 和 2 分别 转换 为 第 2 个 子 集中 所 含 的 状态 6 和 7, 这 就 意味 
着 {1,2) 中 的 任何 状态 和 {3,4} 中 的 任何 状态 在 读 入 a 后 到 达 了 不 等 价 的 状态 ,因此 {1,2} 中 
的 任何 状态 与 {3,4} 中 的 任何 状态 都 是 可 区 别 的 ,因此 得 到 了 新 的 划分 如 下 : 

Pi=({1,2){3,4}{5,6,7})) 
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图 3.10 DFA M 和 DFA M’ 


接着 试图 在 Py 中 寻找 一 个 子 集 和 一 个 输入 符号 使 得 这 个 子 集中 的 状态 可 区 别 ,P, 中 
的 子 集 {3,4} 对 应 输入 符号 a 将 再 分 割 ,而 得 到 划分 Ps 二 ({1,2),{3),{4),{5,6,7))。 

P: 中 的 {5,6,7} 可 由 输入 符号 a 或 5 而 分 割 , 得 到 划分 P= 二 ({1,2),{3),{4),{5),{6,7))。 

经 过 考察 ,P 不 能 再 划分 了 。 令 1 代表 {1,2) ,消去 2, 令 6 代表 {6,7} ,消去 7, 便 得 到 
了 图 3.10(b) 的 DFA M , 它 是 图 3.8(a) 的 DFA M 的 最 小 化 。 

比 起 原来 的 有 穷 自动 机 ,化 简 了 的 有 穷 自动 机 具有 较 少 的 状态 ,因而 在 计算 机 上 实现 起 
来 要 简洁 些 。 


3.5 正规 式 和 有 穷 自 动机 的 等 价 性 


正规 式 和 有 穷 自动 机 的 等 价 性 由 以 下 两 点 说 明 : 

(1) 对 于 三 上 的 NFA M, 可 以 构造 一 个 上 的 正规 式 7 ,使 得 L(r)==L(M)。 

(2) 对 于 三 上 的 每 个 正规 式 r ,可 以 构造 一 个 上 的 NFA M, 使 得 L(M)==L(r)。 

首先 介绍 如 何 为 上 的 NFA M 构造 相应 的 正规 式 ~。 

把 状态 转换 图 的 概念 拓 广 , 令 每 条 弧 可 用 一 个 正规 式 作 标记 。 

第 1 步 ,在 M 的 状态 转换 图 上 加 进 两 个 结 点 ,一 个 为 x 结 点 ,一 个 为 y 结 点 。 从 zz 结 点 
H e IGESI M 的 所 有 初 态 结 点 ,从 M 的 所 有 终 态 结 点 用 e 弧 连 接 到 y 结 点 。 形 成 一 个 与 
M FRIM M 只 有 一 个 初 态 x 和 一 个 终 态 y. 

第 2 步 ,逐步 消去 M' 中 的 所 有 结 点 ,直至 只 剩 下 x 和 y 结 点 。 在 消去 过 程 中 ,逐步 用 正 
规 式 来 标记 弧 。 其 消去 的 规则 如 下 : 


(GD #F@)——_2 -G) tz a)“ -G). 


ri 


(2) HFCL, Drz. 
3) HF 1 An 一 代 之 Diy MZ). 
Oma O aa D) 


最 后 zx 和 y 结 点 间 的 弧 上 的 标记 则 为 所 求 的 正规 式 ~。 
例 3.10 以 例 3.7 的 NFA M 为 例 ,M 的 状态 图 见 图 3. 5, 求 正规 式 ~, 使 工 (~) 一 艺 CVD 。 
第 1 步 ,加 z Aly 结 点 ,形成 如 图 3. 11(a) 所 示 的 M 。 
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(alb)*(aalbb)(alb)* 
©) 


bb(a\b)* 
(c) (d) 


图 3.11 M NFA M 构造 正规 式 r 


第 2 步 ,逐步 消去 M 的 结 点 ,消去 1 和 3 之 后 如 图 3. 11(b) 所 示 ; 再 消去 2 和 4 后 如 
图 3. 11(c) 所 示 ; 再 消去 0 结 点 ,最 后 只 剩 下 zx A y 结 点 ,如 图 3. 11(d) 所 示 。 

r=(alb)* (aa\bb)(a\b)* 即 为 所 求 。 

下 面 介绍 从 瑟 上 的 一 个 正规 式 -~ 构造 上 上 的 一 个 NFA M., 使 得 L(M) 二 L(r) 的 方法 。 
这 个 方法 称 为 “语法 制导 ”的 方法 , 即 按 正 规 式 的 语法 结构 指引 构造 过 程 ,首先 将 正规 式 分 解 
成 一 系列 子 表达 式 ,然后 使 用 如 下 规则 为 7 构造 NFA, X} r 的 各 种 语法 结构 的 构造 规则 具 
体 描述 如 下 : 

(1) HØ e 和 a 构造 NFA, 

© 对 于 正规 式 刀 ,所 构造 的 NFA 为 


@ 对 于 正规 式 s, 所 构造 的 NFA 为 
é 
© 对 于 正规 式 a,a€E 353, 所 构造 的 NFA 为 
(2) 车 s,t 为 3 上 的 正规 式 , 相 应 的 NFA SPH NCS) ANC) ,分 别 为 以 下 正规 式 构造 


NFA。 
O 对 正规 式 r==s|1, 所 构造 的 NFA(7) 为 


© 
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其 中 zz 是 NFA(7) 的 初 态 ,y 是 NFA(7) 的 终 态 ,zx 到 N(s) 和 N(7) 的 初 态 各 有 一 个 e 弧 ,从 
N(s) 和 NN() 的 终 态 各 有 一 个 e 弧 到 y ,现在 N(s) 和 N(1) 的 初 态 或 终 态 已 不 作为 N(r) 的 初 
态 和 终 态 了 。 

© 对 正规 式 r 一 %, 所 构造 的 NFA(r) 为 


OMON 


其 中 N(s) 的 初 态 成 了 N(7) 的 初 态 ,N(1) 的 终 态 成 了 N(7) 的 终 态 。N(s) 的 终 态 与 NOW 
初 态 合并 为 N(r) 的 一 个 既 不 是 初 态 也 不 是 终 态 的 状态 。 
@ 对 于 正规 式 r=s* ,NFA(7) 为 


j: 


这 里 xz 和 y 分 别 是 NFA(r) 的 初 态 和 终 态 , 从 工 引 s WME NOHEA NOWAKI 
eM y M x Bly Sle 弧 , 同 样 NGs) 的 终 态 可 沿 s 弧 的 边 直接 回 到 N(s) 的 初 态 。N(s) 的 
初 态 或 终 态 不 再 是 N(7) 的 初 态 和 终 态 。 

@ iE MSCs) HY NFA 同 ; 的 NFA 一样。 

例 3.11 为 r=(alb)*abb 构造 NFAN, 使 得 L(N)=L(r)。 

从 左 到 右 分 解 7, 令 = 二 a, 第 1 个 a, 则 有 


S x, 二 5b, 则 有 


Bran ire WA 
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S rs =asrs =b,rı =b,rs =r5rs sro =rer WA 
CO- 一 人 -一 所 一 一 人 @ 
S ru 二 rars, 则 最 终 得 到 图 3.6 的 NFA N 即 为 所 求 。 


其 实 , 分 解 r 的 方式 很 多 ,用 图 3. 12(a) 一 图 3.12(d) 分 别 表明 另 一 种 分 解 方式 和 所 构 
ii] NFA. 


(alb)* abb 


OOO 

(a) 

bb 

a= Q7 O--O 

a\b 

(b) 

a 

= 
© E 2 E © abb 

b 


(c) 


=0+-B+-0+-O+0+0 


(d) 
3.12 从 正规 式 -构造 NFA 


3.6 正规 文法 和 有 穷 自 动机 的 等 价 性 


前 面 提 到 ,正规 集 也 常常 使 用 正规 文法 描述 ,正规 文法 与 有 穷 自动 机 有 特殊 关系 ,采用 
下 面 的 规则 可 从 正规 文法 G 直接 构造 一 个 有 穷 自 动机 NFA M; 使 得 L(M) 二 L(G), 说 明 
如 下 : 

(1) M 的 字母 表 与 G 的 终结 符 集 相同 。 

(2) H G 中 的 每 个 非 终结 符 生成 M 的 一 个 状态 (不 妨 取 成 相同 的 名 字 ),G 的 开始 符 
S 是 M 的 开始 状态 S 。 

(3) 增加 一 个 新 状态 Z, 作 为 M 的 终 态 。 

(4) 对 G 中 的 形 如 A 一 xB 的 规则 (其 中 1 为 终结 符 或 e,A AB 为 非 终 结 符 的 产生 式 )， 
构造 M 的 一 个 转换 函数 f(A,t)= 二 B。 

(5) 对 G PIB a Ae 的 产生 式 ,构造 M 的 一 个 转换 函数 ADSZ, 

例 3.12 与 文法 GL[LS] 等 价 的 NFA M 如 图 3. 13 所 示 。 
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GLS]: S>aA 
S>bB 
Se 
AaB 
A>bA 
B>aS 
B>bA 
Boe 
尽管 在 编译 程序 的 设计 和 构造 中 很 少 需要 将 有 穷 自 动机 转换 成 等 价 的 正规 文法 ,但 本 
节 仍 对 这 个 算法 进行 介绍 ,可 以 看 到 ,转换 规则 非常 简单 。 
对 转换 函数 (CAO = 已 ,可 写 一 个 产生 式 : 
A— tB 
对 可 接受 状态 Z ,增加 一 个 产生 式 : 
ZE 
此 外 ,有 穷 自 动机 的 初 态 对 应 文法 开始 符 , 有 穷 自 动机 的 字母 表 为 文法 的 终结 符 集 。 


图 3.13 与 GLS] 等 价 的 NFA M 3.14 NFA 


例 3.13 给 出 与 图 3.14 的 NFA 等 价 的 正规 文法 G。 
G=({A,B,C,D},{a,b},P,A) dt P H 
A>aB Ce 
AiD 及 一 本 
B>bK D—>bD 
C+aA D-e 
C 一 0D 


3.7 词法 分 析 程 序 的 自动 构造 工具 


在 本 章 所 介绍 的 形式 模型 一 一 有 限 自动 机 、 正 规 表达 式 以 及 正规 文法 基础 上 容易 实现 
词法 分 析 程 序 的 自动 构造 。 通 常 是 用 正规 表达 式 或 正规 文法 作为 词法 规则 的 形式 描述 , 然 
后 通过 转化 为 等 价 的 有 限 自动 机 来 设计 相应 的 单词 识别 过 程 。 以 正规 表达 式 为 例 , 典 型 的 
过 程 可 能 是 : 
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(1) 每 一 种 别 的 单词 均 对 应 一 个 正规 表达 式 ,所 有 正规 表达 式 以 文本 方式 作为 自动 构 
造 工具 的 输入 。 

(2) 自动 构造 工具 将 每 一 个 正规 表达 式 转换 成 有 限 自动 机 的 形式 ,比如 使 用 3. 5 节 中 
的 方法 将 正规 表达 式 转换 成 NFA。 

(3) 必要 时 ,自动 构造 工具 会 将 有 限 自 动机 确定 化 ,比如 使 用 3.4. 3 节 中 的 方法 得 到 等 
价 的 DFA。 

CA) 必要 时 ,自动 构造 工具 会 将 有 限 自 动机 最 小 化 ,比如 使 用 3. 4. 4 节 中 的 方法 得 到 等 
价 的 拥有 状态 数目 最 少 的 DFA。 

(5) 自动 构造 工具 按照 一 定 的 控制 策略 生成 词法 分 析 程 序 中 扫描 程序 的 代码 ,该 扫描 
程序 可 以 选择 对 每 一 单词 种 别 所 对 应 的 有 限 自 动机 进行 模拟 运行 ,并 从 当前 输入 符号 序列 
中 识别 下 一 个 单词 ,然后 返回 相应 的 单词 符号 。 

通常 ,单词 符号 所 采用 的 数据 结构 也 需要 由 使 用 者 来 给 定 , 连 同 每 一 单词 种 别 对 应 的 正 
规 表 达 式 一 同 作为 自动 构造 工具 的 输入 ;单词 符号 中 的 单词 种 别 一 般 会 由 使 用 者 预先 设 定 。 
另外 ,一 些 工具 会 按照 描述 的 先后 次 序 以 及 可 识别 单词 的 最 大 长 度 等 来 确定 内 部 控制 策略 ， 
这 些 约定 通常 也 要 明确 告知 使 用 者 。 

基于 这 种 方法 来 构造 词法 分 析 程 序 的 工具 很 多 ,本 节 主 要 介绍 自动 构造 工具 lex, 
一 方面 ,使 读者 初步 了 解 lex 工具 的 使 用 ; 另 一 方面 ,有 助 于 加 深 对 词法 分 析 程 序 自动 构造 
的 原理 和 过 程 的 理解 和 认识 。 应 用 广泛 的 一 个 lex 版 本 是 flexi, 

lex 工具 的 功能 是 读 入 用 户 编写 的 一 个 lex 描述 文件 ,生成 一 个 名 为 lex. yy.c 的 C 源 
程序 文件 。lex. yy. c 中 包含 一 个 核心 函数 yylexO , 它 是 一 个 扫描 子 程序 , 读 入 源 程序 的 字 
符 流 ,识别 并 返回 下 一 个 单词 符号 ,如 图 3. 15 所 示 。 


lex 
描述 文件 


lex 


字符 流 | 单词 符号 


源 程序 yylex() 


3.15 lex 简介 


lex 描述 文件 中 包含 针对 每 一 类 词法 单元 的 规则 。 规 则 由 正规 表达 式 和 C 语言 代码 两 
部 分 组 成 。 

下 面 分 几 个 小 节 简 要 介绍 lex 描述 文件 的 格式 和 内 容 、lex 的 使 用 、lex 和 yace 的 联 用 
以 及 若干 例子 。 


3.7.1 lex 描述 文件 中 使 用 的 正规 表达 式 


lex 描述 文件 中 ,在 书写 词法 单元 的 识别 规则 时 ,需要 用 到 正规 表达 式 。 
在 3.3.2 节 ,介绍 了 基本 的 正规 表达 式 。 为 方便 使 用 ,lex 中 的 正规 表达 式 所 允许 的 表 
达 方 式 要 丰富 许多 。 以 下 列举 了 lex 中 主要 的 正规 表达 式 表示 形式 : 
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x, 可 以 匹配 字符 x. 
. ,可 以 匹配 除 换行 符 "\n" 之 外 的 任何 字符 。 
用 方 括号 括 起 来 的 字符 列表 ,可 以 匹配 该 字符 列表 中 的 所 有 字符 。 字 符 列 表 中 除 字 
符 外 还 可 以 出 现 由 间隔 符 '-' 表 示 的 字符 范围 。 例 如 ,[Lxyz] 匹 配 字符 x,y 或 z。 又 
如 ,[x-zA4-60] 匹 配 字符 x,y,z,A,4,5,6 或 0。 除 了 \ 之 外 ,其 他 元 字符 在 方 括号 
中 没有 特殊 含义 。 若 第 一 个 字符 是 '-", 则 不 被 当 作 元 字符 。 
用 [^ 和 ] 括 起 来 的 字符 列表 ,可 以 匹配 该 字符 列表 之 外 的 所 有 字符 。 例 如 ,[^A-Zj 匹 
配 所 有 除 大 写字 母 之 外 的 字符 。 特 别 地 ,[ 仆 可 匹配 任何 字符 。 
用 双 引 号 " 括 起 来 一 个 串 , 可 以 匹配 这 个 串 本 身 。 这 个 串 里 面 的 所 有 元 字符 ,除了 
\ 和 "之 外 ,都 会 失去 元 字符 的 作用 。 例 如 ,可 用 "if 匹配 序列 过 ,可 用 "请 匹配 单个 左 
方 括号 ,可 用 "/x" 匹 配 序列 /x。 
用 大 括号 括 起 来 的 正规 表达 式 宏 名 字 ,相当 于 将 这 个 宏 名 字 展 开 为 相应 的 正规 表达 
式 。 正规 表达 式 宏 名 字 的 定义 见 3.7.2 节 。 
除了 加 双 引 号 "外 ,匹配 单个 元 字符 的 另 一 种 方法 是 利用 转 义 字符 \ 。 例 如 ,\* ,可 
匹配 一 个 字符 * ;如 果 需 要 匹配 序列 \x ,就 必须 写作 \\\x*。 若 \ 后 面 的 字符 是 小 写字 
母 , 则 可 能 表示 C 语言 转 义 字符 ,如 \t 表示 制 表 符 。 
反 斜 杠 \ 后 面 跟 八进制 数值 ,而 \x 后 面 跟 十 六 进 制 数值 , 则 匹配 这 个 数值 对 应 的 
ASCI 字符。 例如 ,\0 匹配 NUL 字符 (ASCII 码 为 0),\123 匹配 八进制 数 123 对 
应 的 ASCH 字符 ,\x2a 匹配 八进制 数 2a 对 应 的 ASCH 字符 。 
rx ,匹配 正规 表达 式 7 的 星 闭 包 。 
r 十 ,匹配 正规 表达 式 7 的 正 闭 包 。 
r? ,匹配 正规 表达 式 -的 任 选 。 
rin} ,匹配 正规 表达 式 -的 ”次 宕 。 
r{m,n} ,匹配 正规 表达 式 7 的 m 到 n KE. 
rims) ,匹配 正规 表达 式 ~ 的 大 于 等 于 m KE. 
(7) ,匹配 正规 表达 式 ~, 括 号 用 于 重新 规定 优先 级 。 
rs, 匹 配 正规 表达 式 ~ 与 正规 表达 式 * 的 连接 。 
r|s, 匹 配 正 规 表 达 式 r 与 正规 表达 式 * 的 并 。 
r/s ,匹配 正规 表达 式 ~, 但 仅 限 于 随后 的 输入 符号 可 以 匹配 正规 表达 式 *。 要 注意 ， 
在 确定 是 否 可 以 匹配 s 期 间 不 管 读 人 过 多 少 个 输入 符号 都 将 被 退回 。 
入, 匹配 正规 表达 式 ~, 但 仅 限 于 在 一 行 的 开始 处 。 
r$ ,匹配 正规 表达 式 ~, 但 仅 限 于 在 一 行 的 结尾 处 。 
去 c>r, 匹 配 正规 表达 式 ~, 但 仅 限 于 开始 条 件 为 <。 开始 条 件 用 来 区 分 不 同上 下 
文 , 其 定义 见 3.7.2 节 。c 也 可 以 是 一 个 开始 条 件 的 列表 ,或 者 是 x ,后 者 用 来 表示 
任意 的 开始 条 件 。 

关于 lex 中 正规 表达 式 的 正确 使 用 还 有 不 少 技术 细节 的 问题 ,本 书 限于 篇 幅 不 可 能 涉 
及 所 有 细节 ,所 以 在 实际 应 用 中 手头 最 好 准备 一 份 较 详 细 的 技术 手册 。 


3.7.2 lex 描述 文件 的 格式 


lex 描述 文件 由 3 个 部 分 组 成 ,各 部 分 之 间 被 只 含 %% 的 行 分 隔 开 : 
。60 。 


辅助 定义 部 分 

%% 

规则 部 分 

%% 

用 户 子 程序 部 分 
其 中 ,辅助 定义 部 分 .规则 部 分 和 用 户 子 程序 部 分 都 是 可 选 的 ,可 以 不 出 现 。 在 没有 用 户 子 
程序 部 分 时 ,第 二 个 %% 也 可 省 略 。 

辅助 定义 部 分 包含 正规 表达 式 宏 名 字 的 声明 以 及 开始 条 件 的 声明 。 它 们 可 能 出 现在 规 
则 部 分 的 正规 表达 式 中 ,用 法 见 3.7.1 节 。 

声明 正规 表达 式 宏 名 字 的 格式 为 

EEF ERRER 


例如 : 
DIGIT [o-9] 
NUMBER {DIGIT} +". " {DIGIT} * 


这 样 ,正规 表达 式 中 若 出 现 {INUMBER)} ,就 相当 于 ([0-9]) 十 "."([0-9])x 。 

开始 条 件 的 声明 始 于 %Start( 可 缩写 为 %s 或 %S) 的 行 ,后 跟 一 个 名 字 列 表 , 每 个 名 字 
代表 一 个 开始 条 件 。 开 始 条 件 可 以 在 规则 的 活动 部 分 使 用 BEGIN 来 激活 。 直 到 下 一 个 
BEGIN 执行 时 ,拥有 给 定 开始 条 件 的 规则 被 激活 ,而 不 拥有 开始 条 件 的 规则 变 为 不 被 激活 。 

开始 条 件 主 要 用 来 区 分 不 同上 下 文 。 限 于 篇 幅 ,这 里 不 打算 给 出 有 关 开 始 条 件 的 声明 
和 使 用 的 例子 。 

规则 部 分 是 描述 文件 的 核心 ,一 条 规则 由 两 部 分 组 成 : 

ERRAR ”动作 

正规 表达 式 的 形式 参见 3.7. 1 节 。 正 规 表 达 式 必须 从 第 一 列 写 起 ,而 结束 于 第 一 个 非 
转 义 的 空白 字符 。 这 一 行 的 剩余 部 分 即 为 动作 。 动 作 必须 从 正规 式 所 在 行 写 起 。 当 某 条 规 
则 的 动作 超过 一 条 语句 时 ,必须 用 花 括 号 括 起 来 。 如 果 动 作 部 分 为 空 , 则 匹配 该 正规 表达 式 
的 输入 字符 流 就 会 被 直接 丢弃 。 

输入 字符 流 中 不 与 任何 规则 中 的 正规 表达 式 匹配 的 串 默认 为 将 被 照抄 到 输出 文件 。 如 
果 不 希 望 照抄 输出 ,就 要 为 每 一 个 可 能 出 现 的 词法 单元 提供 规则 。 

例如 ,以 下 描述 对 应 的 程序 将 从 输入 流 中 删 掉 "remove these characters": 

%% 

"remove these characters" 

又 如 ,以 下 描述 对 应 的 程序 将 多 个 空白 或 Tab 字符 缩减 为 一 个 空白 字符 ,同时 滤 掉 每 
行 行 尾 的 所 有 空白 或 Tab 字符 : 

AA 

(\tJ+ putchar("') ; 

C\t]+$ / * ignore this token * / 

动作 可 以 是 任意 C 语言 代码 ,包括 return 语句 , 它 在 yylex() 被 调 时 返回 某 个 值 。 每 一 
次 调用 yylex() 之 后 ,将 会 从 上 一 次 离开 的 位 置 继续 处 理 输入 字符 流 , 直 到 文件 结束 或 执行 
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了 一 个 return 语句 。 

动作 中 可 以 用 到 yytext yyleng 等 变量 。 其 中 ,yytext 指向 当前 正 被 某 规则 匹配 的 字符 串 ; 
yyleng 存储 yytext 中 字符 串 的 长 度 ,被 匹配 的 串 在 yytext[L0] 一 yytext[Lyyleng 一 1] 中 。 

此 外 ,动作 中 还 允许 包含 特定 的 指导 语句 或 函数 ,如 ECHO, BEGIN, REJECT, yymoreQ , 
yyless(n) ,unput(c) ,input() 等 。 技 术 细 节 可 参考 有 关 lex 的 技术 文档 。 

在 辅助 定义 部 分 和 规则 部 分 ,任何 未 从 第 一 列 开始 的 文本 内 容 , 以 及 被 %{ 和 %) 括 起 来 
的 部 分 ,将 被 复制 到 lex. yy. c 文件 中 (不 包括 %{})。 注 意 ,这 里 的 %{ 必 须 从 所 在 行 的 第 一 
列 开始 。 

在 规则 部 分 ,出 现在 第 一 条 规则 之 前 的 从 第 一 列 开始 的 或 被 %{ 和 %} 括 起 来 的 部 分 里 
可 以 声明 扫描 子 程序 yylex() 的 局 部 变量 ,以 及 每 次 进入 yylex() 时 执行 的 代码 。 

在 辅助 定义 部 分 中 ,第 一 列 开始 的 注释 ( 即 始 于 / x 的 行 ) 也 将 被 复制 ,直到 遇 到 下 一 个 
% /。 但 规则 部 分 中 不 可 以 这 样 。 

最 后 ,用 户 子 程 序 部 分 中 的 调用 扫描 子 程序 或 被 扫描 子 程序 调用 的 所 有 C 语言 函数 将 
被 原样 照抄 到 lex. yy. c 文件 中 。 

值得 提 到 的 是 , 当 遇 到 文件 结尾 时 ,词法 分 析 程 序 将 自动 调用 yywrap() 来 确定 下 一 步 
做 什么 。 如 果 yywrap() 返 回 0, 那 么 就 继续 扫描 ;如 果 yywrap 〇 返回 1, 那么 就 认为 对 输入 
串 的 处 理 已 结束 。lex 库 中 的 yywrap() 标准 版 本 总 是 返回 1。 用户 可 以 根据 需要 在 用 户 子 
程序 部 分 写 一 个 自己 的 yywrap() , 它 将 取代 lex 库 中 的 版 本 。 

例 3.14 分 析 由 下 列 lex 描述 文件 ,说 明 由 它 产生 的 扫描 子 程序 的 功能 。 

%{ 

int num_lines=0,num_chars=0; 

%} 

%% 

\n {十 十 num_lines; 十 十 num_chars;} 

{十 十 num_chars;) 
%% 
main() { 
yylexQ ; 


printf("# of lines= %d, # of chars= %d\n",num_lines,num_chars ); 


} 

解 : 首先 ,第 1 行 到 第 3 行 都 位 于 分 隔 符 %{ 和 %) 之 间 , 这 些 行将 被 直接 插入 到 由 lex 
产生 的 C 语言 代码 中 , 它 将 位 于 任何 过 程 的 外 部 。 第 二 行 中 定义 了 两 个 全 局 变量 : 行 计数 
器 num_lines 和 字符 计数 器 num_chars。 

在 第 4 行 的 %% 之 后 ,第 5,6 行 描述 了 两 个 规则 。 在 第 一 个 规则 中 ,正规 表达 式 只 包含 
一 个 换行 符 \n, 对 应 的 动作 是 行 计数 器 num_lines 加 1, 以 及 字符 计数 器 num_chars 加 1. 
在 第 二 个 规则 中 ,正规 表达 式 是 '. ', 可 以 匹配 除 换行 符 \n 之 外 的 任何 字符 ,对 应 的 动作 是 字 
符 计 数 器 num_chars 加 1。 

最 后 ,在 用 户 子 程序 部 分 中 包括 了 一 个 main 函数 , 它 调 用 函数 yylex(), 且 输出 行 计数 
器 num_lines 和 字符 计数 器 num_chars 的 值 。 

由 上 述 描 述 文件 产生 的 扫描 子 程序 的 功能 是 统计 并 输出 给 定 输入 文本 中 的 行 数 和 字 
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符 数 。 
3.7.3 lex 的 使 用 


设 例 3. 14 中 的 lex 描述 文件 的 名 字 为 count. 1。 在 Linux 环境 (假设 安装 了 相 
发 包 ,并且 设置 了 正确 的 环境 变量 ) 中 ,可 以 通过 以 下 步骤 编译 和 执行 : 
$ lex count. | 


$ ce- o count lex. yy. c - Il 


$ ./count < count. | 


$ 


其 中 ,$ 为 系统 提示 符 。 
第 一 行 命令 执行 后 ,将 会 产生 文件 lex. yy. c。 


应 的 开 


第 二 行 命令 是 用 编译 器 cc 对 lex. yy. c 进行 编译 。 选 项 -o count 指定 了 可 执行 文件 名 


为 count, 不 指定 时 默认 为 a. out. -I 是 lex 库 文件 的 选项 。 


第 三 行 是 执行 count。 输 入 参数 是 文件 count. | 中 的 文本 。 执 行 结果 是 输出 文件 


count. | 中 文本 的 行 数 和 字符 数 。 
例 3.15 给 定 lex 描述 文件 toupper.1 如 下 : 


%4 
# include <stdio. h> 
1% 
%% 
[az] — Printf("%c" ,yytextL0]+'A“'a) 
%% 


试 指出 正确 执行 如 下 命令 序列 后 的 输出 结果 : 


$ lex toupper.1 
$ cc -o toupper lex. yy. c -ll 
$ . /toupper <toupper. | 
解 : 输出 结果 为 
%{ 
# INCLUDE <STDIO. H> 
}% 
%% 
[A-Z] PRINTF("%C", YYTEXTLO]+'A“'AD 
%% 


3.7.4 与 yacc 的 接口 约定 


lex 的 一 个 主要 应 用 是 与 yacc* (一 个 语法 分 析 程 序 的 生成 器 ,参见 7. 3 节 ) 的 联 用 。 
yace 产生 的 分 析 子 程序 在 申请 读 人 下 一 个 单词 时 会 调用 yylex()。yylex() 返 回 一 个 单词 符 
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号 ,并 将 相关 的 属性 值 存 人 全 局 量 yylval 。 

为 了 联 用 lex 和 yacc, 需 要 在 运行 yace 程序 时 加 选项 -d, 以 产生 文件 y. tab.h, 其 中 会 包 
含 在 yace 描述 文件 中 (由 %tokens 定义 ) 的 所 有 单词 种 别 。 文 件 y. tab. h 将 被 包含 在 lex Hi 
述 文件 中 。 

例如 ,如 果 有 一 个 单词 种 别 是 INTEGER ,那么 lex 描述 文件 的 一 部 分 可 能 是 

%{ 

# include "y. tab. h" 

extern int yylval; 

1% 

%% 

0|[1-9][0-9] * { yylval=atoi(yytext); return INTEGER; } 

[十 * O\n] { return yytext[0];} 
` { /* do nothing * / } 

%% 

lex 与 yacc 联 用 的 具体 例子 可 参见 7. 3. 2 节 , 届 时 会 用 到 这 个 lex 描述 文件 。 

注意 : 在 这 个 lex 描述 文件 中 ,每 个 正规 表达 式 之 后 的 语义 动作 中 均 含 有 返回 相应 单词 
种 别 的 return 语句 ,而 单词 自身 的 值 则 通过 全 局 量 yylval 或 yylex 进行 传递 。 这 是 生成 可 
供 语法 分 析 程 序 调用 的 词法 分 析 子 程序 所 需要 的 , 即 每 调用 一 次 返回 下 一 单词 符号 ,如 
图 3.1 所 示 。 


练 J 


1. 构造 下 列 正规 式 相 应 的 DFA。 

(1) 1(011)”101 

(2) 1(1010* |1(010)*1)*0 

(3) aClalb)* |ab*a)*b 

(4) bCCab)* |bb)* ab 

2. 已 知 NFA=({zyyyz),{0,1),M,{z},{z}) 其 中 : 

M(x,0)={z},M(y,0)= {x,y}, M(z,0)={z,z}, M(z,1)={zx}, M(y,1)=8,， 
Mz. D= {y} ,构造 相应 的 DFA. 

3. 将 图 3.16 中 的 NFA 确定 化 。 


图 3.16 NFA 
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4. 把 图 3.17(a) 和 (b) 中 的 NFA 分 别 确定 化 和 最 小 化 。 


a,b 


ODD 


(a) 
图 3.17 NFA 


5. 构造 一 个 DFA, 它 接受 3={0,1) 上 所 有 满足 如 下 条 件 的 字符 串 : 每 个 1 都 有 0 直 
接 跟 在 右边 。 然 后 构造 该 语言 的 正规 文法 。 
6. 设 无 符号 数 的 正规 式 为 0: 
0=dd* | dd*.dd* |.dd* | dd” 10(s | e)dd* 
| 10(s | se)dd |.dd* 10(s | e)dd* 
| dd .dd* 10(s | e)dd* 
化 简 0, 画 出 0 的 DFA, 其 中 d={0,1,2,…,9),s 二 {十 ,一 } 
7. 为 正规 文法 GLS] 
S>aAlbQ 
A—>aA|bB|b 
B—>bD|aQ 
Q>aQlbD|b 
D->bB\aA 
E>aB|bF 
F>bD|\aE\b 
构造 相应 的 最 小 的 DFA. 
8. 给 出 下 述 正规 文法 所 对 应 的 正规 式 : 
S—0A|1B 
A+1S|1 
B>+0S|0 
9. 将 图 3.18 的 DFA 最 小 化 .并 用 正规 式 描 
述 它 所 识别 的 语言 。 人/ 
10. 构造 下 述 文法 GLS] 的 自动 机 : 图 3.18 DFA 
S>A0 
A>A0|S1|0 
该 自动 机 是 确定 的 吗 ? 若 不 确定 , 则 对 它 确 定 化 。 该 自动 机 相应 的 语言 是 什么 ? 
说 明 : 产生 式 形式 为 A>a MR A>Ba.BsACVy ae Vi 的 文法 也 是 正规 文法 ,并 称 为 
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左 线性 文法 。 为 左 线性 文法 GLS] 构 造 NFA M 的 规则 如 下 : 

(1) 字母 表 与 G 的 终结 符 集 相 同 。 

(2) G 中 的 每 个 非 终结 符 生成 M 的 一 个 状态 。 

(3) G 的 开始 符 对 应 M 的 终 态 。 

(4) 增加 一 个 新 的 状态 下 ,作为 M 的 初 态 。 

(5) 对 G 中 的 形 如 A 一 Ba 的 产生 式 , 构 造 M 的 转换 函数 /(B,a) 二 A; 对 A>a, 构 造 
f(F,a)=A,。 

11. 有 一 种 用 以 证 明 两 个 正规 表达 式 等 价 的 方法 , 那 就 是 构造 它们 的 最 小 DFA ,表明 
这 两 个 DFA 是 一 样 的 (除了 状态 名 不 同 外 )。 使 用 此 方法 。 证 明 下 面 的 正规 表达 式 是 等 
价 的 。 

a) (alb)* 

(2) a |b" >" 

(3) Cela)b" )* 

12, 文法 GL《 单 词 7 为 

《单词 ?一 (标识 符 ?|( 整 数 》 

《标识 符 ) 一 (标识 符 )( 字 母 )| (标识 符 )( 数 字 )| (字母 》 

(整数) 一 (整数 (数字) | (数字 》 

(字母 ;一 A1B|…|Y1Z 

《数字 ?一 01112|…1819 

D 改写 G 为 G", 使 G 为 与 G 等 价 的 正规 文法 。 

(2) 给 出 相应 的 有 穷 自动 机 。 

13. 有 如 下 lex 描述 文件 的 识别 规则 部 分 ,请 指出 输入 特定 串 后 输出 是 什么 。 

%% 

(0-9A-Fa-f]+H { printf ("Number "); } 

[A-Za-z][A-Za-z0-9] * { printf ("Identifier "); } 

"LET" { printf ("Keyword "); } 

"=" { printf ("Operator "); } 

ack 

%% 
其 中 输入 的 串 是 “LET Something01 二 DeadBeefH”。 

14. 考虑 如 下 lex 描述 文件 的 识别 规则 部 分 : 

%% 

ab printf("1 %s\n",yytext); 

bxaxc? printf("2 %s\n",yytext) ; 

ba. ax printf("3 %s\n",yytext); 

aa * c printf("4 %s\n" ,yytext); 

ab * c? printf("5 %s\n" yytext); 

%% 

提示 : yytext 是 当前 匹配 的 内 容 。 
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(1) 下 面 的 输入 串 对 应 的 输出 是 什么 ? 

abbacbababcab 

(2) 上 面 的 规则 有 可 以 被 删除 且 不 改变 词法 分 析 器 行为 的 吗 ? 如 果 有 ,请 找 出 可 以 被 
删除 的 规则 ;如 果 没 有 ,请 解释 。 

15, 参考 3.2 节 , 对 附录 A 中 PL/0 编译 器 源码 进行 裁减 ,或 者 对 getsym 及 其 相关 代 
码 进 行 重新 包装 ,实现 一 个 PL/0 语言 的 独立 词法 分 析 程 序 。 该 词法 分 析 程 序 读 和 人 PL/0 语 
言 源 程序 ,输出 一 个 单词 符号 的 序列 。 对 于 标识 符 和 无 符号 整数 ,显示 单词 种 别 和 单词 自身 
的 值 两 项 内 容 ;对 于 其 他 单词 符号 , 仅 显 示 其 单词 种 别 。 


. 67 。 


第 4 章 自 顶 向 下 语法 分 析 方 法 


语法 分 析 是 编译 程序 的 核心 功能 之 一 。 语 法 分 析 的 作用 是 识别 由 词法 分 析 给 出 的 单词 
符号 串 是 否 是 给 定 文法 的 正确 句子 (程序 )。 语 法 分 析 常 用 的 方法 可 分 为 自 项 向 下 分 析 和 自 
底 向 上 分 析 两 大 类 。 虽 然 语法 分 析 可 以 通过 确定 分 析 或 者 不 确定 分 析 来 实现 ,但 在 实际 的 
编译 器 构造 中 ,几乎 都 是 采用 确定 分 析 方式 ,不 确定 分 析 多 数 情况 下 仅 具 有 理论 价值 。 本 音 
主要 介绍 自 顶 向 下 的 确定 分 析 。 在 第 5.6 章 中 ,分 别 介绍 两 种 确定 的 自 底 向 上 分 析 方 法 : 算 
符 优先 分 析 9 和 LR 分 析 。 这 些 分 析 方法 各 有 优 缺点 ,但 都 是 迄今 编译 程序 构造 的 实用 方法 。 

自 顶 向 下 分 析 方 法 也 称 面向 目标 的 分 析 方法 ,也 就 是 从 文法 的 开始 符号 出 发 企图 推导 
出 与 输入 的 单词 符号 串 完全 相 匹配 的 句子 , 若 输 入 串 是 给 定 文法 的 句子 , 则 必 能 推出 ,反之 
必然 出 错 。 自 项 向 下 的 确定 分 析 方法 需 对 文法 有 一 定 的 限制 ,然而 其 实现 方法 简单 直观， 
便于 手工 构造 或 自动 生成 语法 分 析 器 ,是 最 常用 的 语法 分 析 方法 之 一 。 自 项 向 下 的 不 确定 
分 析 方 法 是 带 回溯 的 分 析 方 法 ,实际 上 是 一 种 穷 举 的 试探 方法 ,效率 低 ,代价 高 ,因而 极 少 使 
用 , 仅 在 4. 4 节 中 粗略 介绍 。 


4.1 确定 的 自 顶 向 下 分 析 思 想 


确定 的 自 顶 向 下 分 析 方法 ,是 从 文法 的 开始 符号 出 发 ,考虑 如 何 根据 当前 的 输入 符号 
(单词 符号 ) 唯 一 地 确定 选用 哪个 产生 式 蔡 换 相应 非 终结 符 以 往 下 推导 ,或 如 何 构造 一 棵 相 
应 的 语法 树 。 现 举例 说 明 。 

例 4.1 AXA GICS]: 

S>pA|qB 

A—>cAd |a 

B—>dB|b 

EMAR W=pccadd。 自 顶 向 下 的 推导 过 程 为 S=pA =pcAd =pccAdd =pccadd , 相 
应 的 语法 树 为 图 4. 1。 

这 个 文法 有 以 下 两 个 特点 : 

(1) 每 个 产生 式 的 右 部 都 由 终结 符号 开始 。 

(2) 如 果 两 个 产生 式 有 相同 的 左 部 ,那么 它们 的 右 部 由 不 同 的 终结 符 开 始 。 

对 于 这 样 的 文法 ,显然 在 推导 过 程 中 完全 可 以 根据 当前 的 输入 符号 决定 选择 哪个 产生 
式 往 下 推导 ,因此 分 析 过 程 是 唯一 确定 的 。 再 看 一 个 例子 。 

例 4.2 若 有 文法 GAS]: 

SAp 

S>Bq 


O 算 符 优先 分 析 方 法 适用 范围 较 小 ,可 以 根据 课时 等 实际 情况 进行 取舍 。 
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rx Wo 7s A 


P A 
A JIN ZS 
c 
JIN ZIN 
c A d c A d 
| 
图 4.1 确定 的 自 顶 向 下 语法 分 析 树 ( 一 ) 
A>a 
A>cA 
Bb 
B>dB 


当 输入 串 W=ccap. WHE SLPS Ap >Ap =ecAp =xcap ,构造 相应 语法 树 如 图 
4.2 所 示 。 


la => A => Fs => ^ 


Jy Ty Fs 
A FT 
| 


a 


图 4.2 确定 的 自 顶 向 下 语法 分 析 树 (二 ) 


这 说 明 ccap 是 例 4. 2 文法 的 句子 。 

例 4. 2 文法 的 特点 如 下 : 

(1) 产生 式 的 右 部 不 全 是 由 终结 符 开始 。 

(2) 如 果 两 个 产生 式 有 相同 的 左 部 ,它们 的 右 部 是 由 不 同 的 终结 符 或 非 终 结 符 
开始 。 

(3) 文法 中 无 空 产生 式 。 

对 于 产生 式 中 相同 左 部 含有 非 终结 符 开 始 的 产生 式 时 ,在 推导 过 程 中 选用 哪个 产生 式 
不 像 例 4. 1 XEMEN, XF W= cap 为 输入 串 时 ,其 第 一 个 符号 是 ,这 时 从 S 出 发 选 
TESA p 还 是 选择 S 一 Bg, 就 需要 知道 是 从 Ap 还 是 从 Bg 能 推出 ce(eEV) 形 式 , 若 当 且 仅 
当 从 Ap 能 推出 ca, 则 选 S>Ap 进行 推导 ; 若 当 且 仅 当 Bg 能 推出 ca, 则 选 S> Bg 进行 推 
导 。 为 方便 考察 , 作 如 下 定义 。 

定义 4.1 设 G=(Vr,VN,P,S) 是 上 下 文 无 关 文 法 。 

FIRST(a)={ala Saf, a€Vr.a.BEV" } 


车 a Se. MME © FIRST(a), Pf FIRST) Wa 的 开始 符号 集 或 首 符 号 集 。 
。 69 。 


不 难 求 出 在 文法 G2 中 : 

FIRST(Ap)= {a,c} 

FIRST (Bq) = {4b,d} 

这 样 , 在 文法 G2 中 ,关于 S 的 两 个 产生 式 的 右 部 虽然 都 以 非 终 结 符 开始 ,但 它们 右 部 
的 符号 串 可 以 推导 出 的 开始 符号 集 不 相交 ,因而 可 以 根据 当前 的 输入 符号 是 属于 哪个 产生 
式 右 部 的 开始 符号 集 而 决定 选择 相应 产生 式 进 行 推 导 。 这 样 仍 能 构造 确定 的 自 顶 向 下 
分 析 。 

在 文法 G1.G2 中 都 不 包含 空 产生 式 ,处 理 比 较 直观 简单 。 下 面 考虑 当 文 法 中 有 空 产生 
式 时 的 情况 , 先 看 例子 。 

例 4.3 有 文法 GLS]: 

S>aA 

Sod 

A>bAS 

Ae 

HAR W = abd , 则 试图 推导 出 abd 串 的 推导 过 程 为 S =A 之 0AS =ubS =ubd , 相 
应 语法 树 为 图 4. 3。 


PN E 
A AK as, 
| 1 


图 4.3 确定 的 自 顶 向 下 语法 分 析 树 (三 ) 


从 以 上 推导 过 程 中 可 以 看 到 ,在 第 2 步 到 第 3 步 的 推导 中 , 即 abAS=>abS 时 , 因 当 前 面 
临 的 输入 符号 为 4d ,而 最 左 非 终结 符 A 的 产生 式 右 部 的 开始 符号 集 都 不 包含 d ,但 有 e, 因 此 
对 于 a 的 匹配 自然 认为 只 能 依赖 于 在 可 能 的 推导 过 程 中 A 的 后 面 的 符号 ,所 以 这 时 选用 产 
ER Ae 往 下 推导 ,而 当前 A 后 面 的 符号 为 S,S 产生 式 右 部 的 开始 符号 集 包含 了 d ,所 以 
例 中 可 用 Sd 推导 得 到 匹配 。 

由 此 可 以 看 出 , 当 某 一 非 终 结 符 的 产生 式 中 含有 空 产生 式 时 , 它 的 非 空 产生 式 右 部 
的 开始 符号 集 两 两 不 相交 ,并 与 在 推导 过 程 中 紧 跟 该 非 终 结 符 右 边 可 能 出 现 的 终结 符 
集 也 不 相交 , 则 仍 可 构造 确定 的 自 项 向 下 分 析 , 为 此 ,定义 一 个 文法 符号 的 后 跟 符号 的 
集合 如 下 。 

定义 4.2 设 G=(Vr,VN,P,S) 是 上 下 文 无 关 文 法 ,.AEVxN,S 是 开始 符号 

FOLLOW(A)={a|S Š pAß H a€Vz-a€ FIRST (A) EVE .BEV+)} 
Æ S >pAB. H. B Se. ill # EFOLLOW(A)。 

也 可 定义 为 

FOLLOW(A) = {a | SS.…Aa,a € Vr} 
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车 有 S >A, WHE FC FOLLOW(A). 

KEH + 作为 输入 串 的 结束 符 ,也 称 输入 串 括号 。 

因此 当 文法 中 含有 形 如 

A>a 
Ap 

的 产生 式 时 ,其 中 AC Vy a BEV" ,车 a 和 8B 不 能 同时 推导 出 空 , 假 定 a ep Se, W 
FIRST Ca) N (FIRST (A) U FOLLOW(A)) = SBF. RF FARAH FE A 的 蔡 换 仍 可 唯一 地 确定 

定义 4.3 一 个 产生 式 的 选择 符号 集 SELECT。 给 定 上 下 文 无 关 文法 的 产生 式 A>a， 
AEVy.a€V" ,车 a Pe, Il] SELECT(A>a) =FIRST (a). 

WE a Se, l] SELECT (Aa) = (FIRST (a) — {e}) UFOLLOW(A). 

定义 4.4 一 个 上 下 文 无 关 文 法 是 LL(1) 文 法 的 充分 必要 条 件 是 ,对 每 个 非 终 结 符 A 
的 两 个 不 同 产生 式 ,A>a,A 一 B, 满 足 

SELECT(A —> a) N SELECT(A > $) = Ø 

其 中 a p RRN AE >, 

根据 前 面 的 讨论 容易 看 出 ,LL(1) 文 法 是 能 够 使 用 确定 的 自 项 向 下 分 析 技 术 的 。 

LL(1) 的 含义 是 : 第 1 个 表明 自 项 向 下 分 析 是 从 左 向 右 扫 描 输 入 串 , 第 2 个 表明 
分 析 过 程 中 将 用 最 左 推导 ,1 表明 只 需 向 右 看 一 个 符号 便 可 决定 如 何 推导 , 即 选择 哪个 产生 
式 (规则 ) 进 行 推导 。 类 似 地 ,也 可 以 有 LL(CA) 文 法 ,也 就 是 需 向 前 查看 & 个 符号 才 可 确定 选 
用 哪个 产生 式 。 通 常 采用 4 一 1, 个 别 情况 采用 4 一 2。 

回顾 例 4. 3 的 文法 : 

S>aA 

Sd 

A>bAS 

Ae 
不 难看 出 : 

SELECT(S-~aA) 一 {a} 

SELECT(S—>d)= {4d} 

SELECT(AbAS) = {b} 

SELECT(Ae)={a.d.#} 
所 以 

SELECT(SaA) SELECT(Sd)={a}NM{d}=2 

SELECT(A6AS) (}SELECT(Ae) = {b} N lasd, # }= Ø 
由 定义 4.4 知 例 4.3 文法 是 LL(1) 文 法 ,所 以 可 用 确定 的 自 项 向 下 分 析 。 

例 4.4 文法 GLS] 为 

S>aAS 

S>b 
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A>bA 

Ae 
则 

SELECT(SaAS) = {a} 

SELECT(Sb) = {b} 

SELECT(AbA) = {b} 

SELECT(Ae) = {a+b} 
所 以 

SELECT(SaAS) (| SELECT(S—b) = {a} N {b} = Ø 

SELECT(A—>bA) NSELECT(A—>e) = {b} N {ab} 4D 
因此 , 例 4.4 的 文法 不 是 LL(1) 文 法 ,因而 也 就 不 可 能 用 确定 的 自 顶 向 下 分 析 。 下 面 分 析 输 
Ath W ab 的 两 种 不 同 推导 过 程 。 第 一 种 推导 过 程 为 S 之 AS 之 0AS 之 0S ,在 句 型 abS 
中 由 于 S 不 能 推出 se, 所 以 这 种 推导 过 程 推 不 出 cp; 第 二 种 推导 过 程 为 S 过 AS aS b, 
这 种 推导 过 程 推 出 了 ab。 在 上 述 两 种 推导 过 程 中 ,第 1 个 输入 符 a 的 匹配 都 用 了 产生 式 S 
一 上 AS, 得 到 名 型 AS。 这 时 按 最 左 推导 需 用 A 的 产生 式 右 部 替换 A ,而 关于 A 的 产生 式 
有 两 个 不 同 的 右 部 , 即 有 两 个 候选 。 当 前 的 输入 符号 为 5, 第 一 种 推导 过 程 认 为 产生 式 A 一 
bA 的 右 部 开始 符号 为 5, 所 以 可 用 5bA H A ,使 5b 得 到 匹配 ;第 二 种 推导 过 程 认 为 A 的 后 
跟 符 集合 中 含有 45, 所 以 用 产生 式 Ae 进行 推导 ,用 蔡 换 了 A ,得 到 名 型 aS, 符 号 6 由 S 
往 下 推导 去 匹配 ,而 关于 S 的 产生 式 恰 有 Sb, 所 以 用 它 推 导 b 得 到 匹配 。 

以 上 两 种 推导 过 程 中 , 当 第 2 步 推 导 时 当前 输入 符 为 6, 对 名 型 aAS 中 的 A 用 哪个 产 
生 式 推导 不 能 唯一 确定 ,因此 导致 了 这 个 文法 不 能 构造 确定 的 自 顶 向 下 分 析 。 


4.2 LL(1) 文 法 的 判别 


当 需 要 选用 自 顶 向 下 分 析 技 术 时 ,必须 判别 所 给 文法 是 否 是 LL(1) 文 法 。 因 而 对 任 给 
文法 需 首先 计算 FIRST .FOLLOW SELECT 集合 ,进而 判别 文法 是 否 为 LL(1) 文 法 。 

在 下 面 的 讨论 中 假定 所 给 文法 是 经 过 压缩 的 , 即 文法 中 不 包含 多 余 规 则 和 有 害 规则 。 
现 举例 说 明 判 断 LL(1) 文 法 的 步骤 。 

例 4.5 文法 GLS] 为 

S>AB 

S—>bC 


判别 步骤 如 下 。 
第 一 步 , 求 出 能 推出 © 的 非 终结 符 。 
首先 建立 一 个 以 文法 的 非 终结 符 个 数 为 上 界 的 一 维 数组 ,其 数组 元 素 为 非 终 结 符 , 对 应 
每 一 非 终结 符 有 一 个 标志 位 ,用 以 记录 能 否 推出 s。 其 值 有 3 种 情况 :“ 未 定 ”“ 是 ”“ 否 ”。 
例 4.5 所 对 应 数组 X[] 的 内 容 如 表 4.1 所 示 。 
表 4.1 非 终结 符 能 否 推出 空 串 的 数组 


非 终结 符 S A B C D 

初 值 未 定 未 定 未 定 未 定 未 定 
第 1 次 扫描 是 是 否 
第 2 次 扫描 是 B 


计算 能 推出 s 的 非 终结 符 步 骤 如 下 : 

(1) 将 数组 X[] 中 对 应 每 一 非 终结 符 的 标记 置 初 值 为 “未 定 ”。 

(2) 扫描 文法 中 的 产生 式 。 

D 删除 所 有 碳 部 含有 终结 符 的 产生 式 , 若 这 使 得 以 某 一 非 终结 符 为 左 部 的 所 有 产生 式 
都 被 删除 , 则 将 数组 中 对 应 该 非 终结 符 的 标记 值 改 为 “ 否 ”, 说 明 该 非 终结 符 不 能 推出 6。 

@ 若 某 一 非 终结 符 的 某 一 产生 式 右 部 为 s, 则 将 数组 中 对 应 该 非 终结 符 的 标志 置 为 
“是 ”, 并 从 文法 中 删除 该 非 终 结 符 的 所 有 产生 式 。 本 例 中 对 应 非 终结 符 A、B 的 标志 改 为 
“是 ”。 

(3) 扫描 产生 式 右 部 的 每 一 符号 。 

D 车 所 扫描 到 的 非 终结 符 在 数组 中 对 应 的 标志 是 “是 ”, 则 删 去 该 非 终 结 符 ; 若 这 使 产 
生 式 右 部 为 空 , 则 将 产生 式 左 部 的 非 终结 符 在 数组 中 对 应 的 标志 改 为 “是 ”, 并 删除 以 该 非 终 
结 符 为 左 部 的 所 有 产生 式 。 

© 若 所 扫描 到 的 非 终结 符号 在 数组 中 对 应 的 标志 是 “和 否 ”, 则 删 去 该 产生 式 : 若 这 使 产 
生 式 左 部 非 终结 符 的 有 关 产 生 式 都 被 删 去 , 则 把 在 数组 中 该 非 终结 符 对 应 的 标志 改 成 < 否 ”。 

(4) 重复 (3) ,直到 扫描 完 一 遍 文 法 的 产生 式 , 数 组 中 非 终结 符 对 应 的 特征 再 没有 改变 
为 止 。 

由 (2) 中 中 得 知 例 中 对 应 非 终 结 符 的 标志 改 为 “ 否 ”。 

经 过 上 述 (2) 中 、@ 两 步 后 ,文法 中 的 产生 式 只 剩 下 S>AB Al CAD, tht AP 
右 部 全 是 非 终结 符 串 的 产生 式 。 

再 由 (3) 中 的 四 步 扫描 到 产生 式 SAB 时 ,在 数组 中 A、B 对 应 的 标志 都 为 “是 ”, 删 去 
后 S 的 右 部 变 为 空 ,所 以 S 对 应 标志 置 为 “是 ”。 

最 后 由 (3) 中 的 @ 扫 描 到 产生 式 CAD 时 ,其 中 ,A 对 应 的 标志 为 “是 ”,D 对 应 的 标志 
为 “ 否 ”, 删 去 该 产生 式 后 ,再 无 左 部 为 C 的 产生 式 , 所 以 C 的 对 应 标志 改 成 “ 否 ”。 

第 二 步 ,计算 FIRST 集 。 

(1) 根据 FIRST 集 定义 对 每 一 文法 符号 XEV 计算 FIRSTCX) 。 

© 若 XEVr, 则 FIRSTCX) 王 (X)。 

Q@ 若 XEVN, 且 有 产生 式 X-=a…,aEVr, 则 acEFIRSTCX)。 

回 若 XEVN,X-~e, 则 sEFIRSTCX) 。 
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@ Ë XY. Yo. YEVN, 而 有 产生 式 XY Yo Yn. MY1Yoo Yiu Sse 时 (其 


中 1<i<n), W] FIRST(Y,)— {e}, FIRST(Y2)— {e} +++, FIRST(Y,-1) —{e} , FIRST (Y;) #8 
包含 在 FIRST(X) F. 

© 当 @ 中 所 有 Y: Se, G=1,2,,n), W] FIRST(X)=FIRST(Y;) UFIRST(Y;) U -= 
UFIRSTCY,) U {e}. 

反复 使 用 上 述 @ 一 @@ 步 ,直到 每 个 符号 的 FIRST 集合 不 再 增 大 为 止 。 

求 出 每 个 文法 符号 的 FIRST 集合 后 ,也 就 不 难 求 出 一 个 符号 串 的 FIRST 集合 。 

车 符号 串 EV? a= X, XX, 4 Xi AES, Wl H FIRST (a) =FIRST(X,), 

HM EA j AS jSi—1,2<i<n) .e € FIRST(X;) e @FIRSTCX;) , 则 


i 
FIRST (a) = U (FIRST(X;) — {e}) U FIRST(X;) 
j=l 


当 对 任何 | I< j<n) ,FIRST(X;) 都 含有 e 时 , 则 
il 
FIRST (a) = UJ (FIRST(X;)) U {e} 


j=1 
由 此 算法 可 计算 出 例 4. 5 文法 各 非 终 结 符 的 FIRST 集 。 
FIRST(S) = (FIRST(A) — {e}) U (FIRST(B) — {e}) U {e} U {b} = {bsa se} 
FIRST(A) = {b} U {e} = {bse} 
FIRST(B) = {e} U {a} = {ase} 
FIRST(C) = (FIRST(A) — {e}) U FIRST(D) U FIRST(b) = {b,a,c} 
FIRST(D) = {a} U {c} = {a,c} 
所 以 最 终 求 得 : 
FIRST(S) = {a,b,e} 
FIRST(A) = {bse} 
FIRST(B) = {ase} 
FIRST(C) = {a,b,c} 
FIRST(D) = {a,c} 
每 个 产生 式 的 右 部 符号 串 的 开始 符号 集合 为 
FIRST(AB) = {a,b,e} 
FIRST(6C) = {b} 
FIRST(e) = {e 
FIRST) = {b} 
FIRST (aD) = {a} 
FIRST(AD) = { 
FIRST b) = {b} 
FIRST (aS) = {a} 
FIRST (c) = {c} 
(2) 由 关系 图 法 求 文法 符号 的 FIRST E., 
D 每 个 文法 符号 对 应 图 中 一 个 结 点 .对 应 终结 符 的 结 点 时 用 符号 本 身 标记 ,对 应 非 终 
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{ 


a,b,c} 


结 符 的 结 点 时 用 FIRST(A) 标 记 。 这 里 A 表示 非 终结 符 。 


© 如 果 文法 中 有 产生 式 Aa XB, H a Se WAIA A 的 结 点 到 对 应 X 的 结 点 连 一 条 
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FIRST(A) 的 成 员 。 

@ 根据 判别 步骤 的 第 一 步 确定 © 是 否 为 某 非 终结 符 
FIRST 集 的 成 员 ,若是 , 则 将 s 加 入 该 非 终结 符 的 FIRST 
集中 。 

以 例 4.5 文法 为 例 计 算 FIRST 集 的 关系 图 ,如 图 4.4 
所 示 。 

由 关系 图 法 求 得 例 5. 5 文法 非 终结 符 的 FIRST 集 
结果 如 下 : 

FIRST(S)= {b,a,e} 
FIRST(A)= {6b,e} 
FIRST(B)= {a,e} 
FIRST(C)= {a,b,c} 
FIRST(D)= {a,c} 


‘Gates 
1 


图 凡是 从 FIRST(A) 结 点 有 路 径 可 到 达 的 终结 符 结 点 所 标记 的 终结 符 都 为 


FIRST(S) =| FIRST(4) 
FIRST(B) FIRST(D) 


图 4.4 计算 FIRST 集 的 关系 图 


与 根据 定义 求 得 的 结果 相同 。 注 意 , 请 读者 自己 考虑 ,为 什么 不 能 把 = 结 点 画 在 关系 图 中 ? 


第 三 步 , 计 算 FOLLOW 集 。 


(1) 对 文法 中 每 一 个 AEVN ,根据 定义 计算 FOLLOW(A) 。 
D BS 为 文法 的 开始 符号 ,把 {# } 加 入 FOLLOW(S) 中 (这 里 # 为 句子 括号 ) 。 
© 车 A>aBB 是 一 个 产生 式 , 则 把 FIRST(B8) 的 非 空 元 素 加 入 FOLLOW(B) 中 。 


WE p Se, WIE FOLLOW) EIMA FOLLOW(B) 中 ,因为 当 有 形 如 


D > aA, 
A —> aB 


的 产生 式 时 ,A,B,DEVN,aa Bh CV" ,在 推导 过 程 中 可 能 出 现 如 下 的 句 型 序列 : 
ss +a, AB) +> +a @BBB, +> +a, @BBy iY 
由 定义 4.2 可 知 ,FIRST(B)EFOLLOW(A) 必 有 FIRST(2,) E FOLLOW(B) 。 


故 FOLLOW(A)SFOLLOW(B)。 


O 反复 使 用 @ 直 到 每 个 非 终结 符 的 FOLLOW 集 不 再 增 大 为 止 。 


现在 计算 例 4. 5 文法 各 非 终结 符 的 FOLLOW 集 。 
FOLLOW(S) = {#} U FOLLOW(D) 


FOLLOW(A) = (FIRST(B) — {e}) U FOLLOW(S) U FIRST(D) 


FOLLOW(B) = FOLLOW(S) 
FOLLOW(C) = FOLLOW(S) 


FOLLOW(D) = FOLLOW(B) U FOLLOW(C) 


由 以 上 最 终 计 算 结 果 得 : 
FOLLOW(S) = {#} 
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FOLLOW(A) = {a, # +c} 
FOLLOW(B) = {#} 
FOLLOW(C) = {#} 
FOLLOW(D) = {#} 
(2) 用 关系 图 法 求 非 终结 符 的 FOLLOW 集 。 
D 文法 G 中 的 每 个 符号 和 # 对 应 图 中 的 一 个 结 点 ,对 应 终结 符 和 # 的 结 点 用 符号 本 身 
标记 。 对 应 非 终结 符 的 结 点 (如 AEVN) 则 用 FOLLOW(A) 或 FIRST(A) 标 记 。 
© 从 开始 符号 S 的 FOLLOW(S) 结 点 到 # 号 的 结 点 连 一 条 箭 弧 。 
@ 如 果 文 法 中 有 产生 式 A> a BBX. H B >. WMA FOLLOW(B) 44 AE] FIRST CX) Si sh 
连 一 条 箭 弧 , 当 XEVT 时 , 则 与 X 相连 。 
@ 如 果 文法 中 有 产生 式 A>aBh He 三 es, 则 从 FOLLOW(B) 结 点 到 FOLLOW(A) 结 
点 连 一 条 箭 弧 。 
© 对 每 一 个 FIRST(A) 结 点 ,如 果 有 产生 式 A 一 aXB, 且 a Se, SM FIRST (A) 3) 
FIRST(X) 连 一 条 箭 弧 。 
凡是 从 FOLLOW(A) 结 点 有 路 径 可 以 到 达 的 终结 符 或 # 号 的 结 点 ,其 所 标记 的 终 
结 符 或 # 号 即 为 FOLLOW(A) 的 成 员 。 
现在 对 例 4. 5 文法 用 关系 图 法 计算 FOLLOW 集 , 如 图 4.5 所 示 。 


© 


FOLLOW(B) }—=}| FOLLOW(S) 
| | 


FOLLOW(D) FOLLOW(4) = FIRST(B) 


FOLLOW(C) FIRST(D) 


© @— 


图 4.5 计算 FOLLOW 集 的 关系 图 


则 得 
FOLLOW(S) = {#} 
FOLLOW(A) = {a.c.#} 
FOLLOW(B) = {#} 
FOLLOW(C) = {#} 
FOLLOW(D) = {#} 
与 根据 定义 计算 的 结果 相同 。 


此 外 ,对 文法 符号 FIRST 集 和 FOLLOW 集 的 计算 还 有 关系 矩阵 法 等 ,有 兴趣 的 读者 
可 参考 有 关 书 籍 。 
第 四 步 ,计算 SELECT 集 。 
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对 例 4. 5 文法 的 FIRST ÆA FOLLOW 集 的 计算 结果 如 表 4. 2。 
表 4.2 文法 的 FIRST 集 和 FOLLOW 集 


非 终结 符 名 是 否 5e FIRST 集 FOLLOW 集 
S 是 {base} {#} 
A 是 {bye} {a,c,#} 
B 是 {ase} {#} 
c 否 {a,b,c} {#} 
D a {a,c} {#} 


每 个 产生 式 的 SELECT 集合 计算 如 下 : 
SELECT(S —> AB) = (FIRST(AB) — {e}) U FOLLOW(S) = {b,a,#} 
SELECT(S —> bC) = FIRST(OC) = {b} 
SELECT(A > e) = (FIRST(e) — {e}) U FOLLOW(A) = {a.c, #} 
SELECT(A —> b) = FIRST(b) = {b} 
SELECT(B 一 e) = (FIRST(e) — {e}) U FOLLOW(B) = { #} 
SELECT(B — aD) = FIRST(aD) = {a} 
SELECT(C > AD) = FIRST(AD) = {a,b,c} 
SELECT(C > b) = FIRST(b) = {b} 
SELECT(D —> aS) = FIRST(aS) = {a} 
SELECT(D > c) = FIRST(c) = {c} 
由 以 上 计算 结果 可 得 相同 左 部 产生 式 的 SELECT 交集 为 
SELECT(S —> AB) 门 SELECT(S + bC) = {b,a,#} N {b} = {b} + Ø 
SELECT(A —> €) N SELECT(A > b) = {a,c #} N b) = Ø 
SELECT(B + €) N SELECT(B > aD) = {#} N {a} = Ø 
SELECT(C > AD) fN SELECT(C > b) = {b,a,c} N {b} = {b} FD 
SELECT(D —> aS) N SELECT(D > ¢) = {a} N {c} = Ø 
由 LL(1) 文 法 定义 得 知 该 文法 不 是 LL(1) 文 法 ,因为 关于 S 和 C 的 相同 左 部 ,其 产生 
式 的 SELECT 集 的 交集 不 为 如 。 


4.3” 某 些 非 LL(1) 文 法 到 LL(1) 文 法 的 等 价 变换 


在 4.1 节 和 4.2 节 中 指出 ,确定 的 自 项 向 下 分 析 要 求 给 定语 言 的 文法 必须 是 LL(1) 形 
式 。 然 而 ,不 一 定 每 个 语言 都 有 LL(1) 文 法 ,对 一 个 语言 的 非 LL(1) 文 法 是 否 能 变换 为 等 价 
的 LL(1) 形 式 以 及 如 何 变 换 是 本 节 讨 论 的 主要 问题 。 由 LL(1) 文 法 的 定义 可 知 , 若 文法 中 
含有 直接 或 间接 左 递归 ,或 含有 左 公 共 因 子 , 则 该 文法 肯定 不 是 LL(1) 文 法 ,因而 ,要 设法 消 
除 文法 中 的 左 递归 ,提取 左 公 共 因 子 对 文法 进行 等 价 变换 。 在 某 些 特殊 情况 下 可 能 使 其 变 
为 LL(1) 文 法 。 


4.3.1 提取 左 公共 因子 


若 文法 中 含有 形 如 AaB | ay 的 产生 式 , 就 会 导致 对 相同 左 部 的 产生 式 其 右 部 的 
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FIRST 集 相交 ,也 就 是 SELECT (Aa) N SELECT (A>ay) 4 @ RWE LL(1) 文 法 的 充 
分 必要 条 件 。 
可 将 产生 式 A>aBlay 等 价 变换 为 


A—a(B|7) 
其 中 括号 为 元 符号 ,再 引进 新 非 终结 符 A', 去 掉 括号 使 产生 式 变换 为 
A>aA’ 
A’>Bly 
写成 一 般 形 式 为 
A 一 ap | af: | … | a, 
提取 左 公 共 因 子 后 变 为 


A=alpB | & | |B) 
引进 非 终结 符 A' 后 变 为 
A>aA’ 
A’>Bl Rl 1B 
车 在 BB,B,B，…( 其 中 1<i,j,k 二 nn) 中 仍 含有 左 公共 因子 ,这 时 可 再 次 提取 ,这 样 反 复 进行 
提取 ,直到 引进 新 非 终结 符 的 有 关 产 生 式 再 无 左 公 共 因 子 为 止 。 
例 4.6 文法 G1 的 产生 式 为 


A) S>aSb 
(2) S>aS 
(3) Se 
对 产生 式 (1)、(2) 提 取 左 公共 因子 后 得 : 
SaS(b|e) 
Sg 
进一步 变换 为 文法 G1: 
S—aSA 
A>b 
Ae 
Sé 
例 4.7 文法 G2 的 产生 式 为 
(1) A>ad 
(2) A>Be 
(3) BoaA 
(4) B>bB 


产生 式 (2) 的 右 部 以 非 终结 符 开始 ,因此 左 公共 因子 可 能 是 隐 式 的 ,所 以 这 种 情况 下 对 
右 部 以 非 终结 符 开 始 的 产生 式 用 左 部 相同 而 右 部 以 终结 符 开始 的 产生 式 进行 相应 替换 ,对 
文法 G2 分 别 用 产生 式 (3)、(4) 的 右 部 替换 产生 式 (2) 中 的 B, 可 得 
(1) A>ad 
(2) A>aAe 
(3) A 一 0Bc 
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(4) B>aA 


(5) B>bB 
提取 产生 式 (1)、(2) 的 左 公共 因子 得 
A—a(d | Ac) 
A — bBc 
B —>aA 
B>bB 引进 新 非 终结 符 A“ ,去 掉 括 号 后 得 G'2 为 
(1) A>aA’ 
(2) A>bBe 
(3) A’>d 
(4) A' 一 Ac 
(5) B>aA 
(6) B>bB 


不 难 验 证 经 提取 左 公 共 因 子 后 文法 G'1 仍 不 是 LL(1) 文 法 ,而 文法 G'2 变 成 了 LL(1) 
文法 ,因此 文法 中 不 含 左 公共 因子 只 是 LL(1) 文 法 的 必要 条 件 ,而 不 是 充分 条 件 。 

值得 注意 的 是 ,对 文法 进行 提取 左 公 共 因 子 变 换 后 ,有 时 会 使 某 些 产生 式 变 成 无 用 产生 
式 ,在 这 种 情况 下 必须 对 文法 重新 压缩 (或 化 简 ) 。 

例 4.8 有 文法 G3 的 产生 式 为 

(1) S+aSd 

(2) S>Ac 

(3) A>aS 

(4) A>b 

用 产生 式 (3)、(4) 中 右 部 替换 产生 式 (2) 中 右 部 的 A, 文 法 变 为 

A) S>aSd 

(2) S—>aSc 

(3) S>be 

(4) A>aS 

(5) A>b 

对 产生 式 (1)、(2) 提 取 左 公共 因子 得 

S—>aS(d|o 

引入 新 非 终结 符 A' 后 变 为 

(1) S>aSA’ 

(2) S>be 

(3) A’>dlc 

(4) A>aS 

(5) A>b 

显然 ,原文 法 中 非 终结 符 A 变 成 不 可 到 达 的 符号 ,产生 式 (4)、(5) 也 就 变 为 无 用 产生 
式 ,所 以 应 删除 。 

此 外 也 存在 某 些 文法 不 能 在 有 限 步骤 内 提取 完 左 公共 因子 的 情况 。 
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例 4.9 文法 G4 的 产生 式 为 

(1) S>AplBg 

(2) A>aAp|d 

(3) B>aBqle 

用 产生 式 (2)、(3) 的 右 部 蔡 换 产生 式 (1) 中 的 A、B, 使 文法 变 为 

(1) S+aApp|aBqq 

(2) S+dpleq 

(3) A>aAp|d 

(4) B>aBgle 

对 产生 式 (1) 提 取 左 公共 因子 则 得 

S— a(App | Baq) 

再 引入 新 非 终 符 S' ,结果 得 等 价 文法 为 

(1) S>as’ 

(2) S>dpleq 

(3) S'>App|Baq 

(4) A>aAp|d 

(5) B>aBq\e 

同样 分 别 用 产生 式 (4)、(5) 的 右 部 蔡 换 产生 式 (3) 中 右 部 的 A.B, 再 提取 左 公 共 因 子 ， 
最 后 结果 为 

(1) S>aS’ 

(2) S>dpleg 

(3) S'as" 

(4) S’>dpp\eqq 

(5) S’>Appp| Baad 

(6) AaAp|d 

(7) B>aBgle 

可 以 看 出 , 若 对 产生 式 (5) 中 A、B 继续 用 产生 式 (6)、(7) 的 右 部 替换 ,只 能 使 文法 的 产 
生 式 愈 来 愈 多 ,无 限 增加 下 去 ,而 不 能 得 到 提取 左 公 共 因子 的 预期 结果 。 

由 上 面 所 举例 子 可 以 说 明 以 下 间 题 : 

(1) 不 一 定 每 个 文法 的 左 公 共 因 子 都 能 在 有 限 的 步骤 内 替换 成 无 左 公共 因子 的 文法 ， 
上 面 的 文法 G4 就 是 如 此 。 

(2) 一 个 文法 提取 了 左 公共 因子 后 ,只 解决 了 相同 左 部 产生 式 右 部 的 FIRST 集 不 相交 
的 问题 。 当 改写 后 的 文法 不 含 空 产生 式 , 且 无 左 递归 时 , 则 改写 后 的 文法 是 LL(1) 文 法 ， 
若 还 有 空 产生 式 时 , 则 还 需 用 LL(1) 文 法 的 判别 方式 进行 判断 才能 确定 是 否 为 LL(1) 
文法 。 


4.3.2 消除 左 递归 


观察 在 文法 中 含有 如 下 形式 的 两 种 产生 式 的 情形 。 
(1) A*AB,AE Vy BEV* 
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(2) A>BB 
B>Aa A,BEVy, a BEV’ 
含 (1) 中 情况 的 产生 式 , 则 称 文法 含有 左 递归 的 规则 或 称 直 接 左 递归 。 含 (2) 中 情况 的 产生 
式 可 以 形成 推导 A 态 A…, 则 称 文法 中 含有 左 递归 或 间接 左 递 归 。 文 法 中 只 要 含有 (1) 或 舍 
有 (2) 或 二 者 此 有 , 均 认 为 文法 是 左 递归 的 。 然 而 ,一 个 文法 是 左 递归 时 不 能 采用 自 顶 向 下 
分 析 法 ,下 面 用 例 4. 10 和 例 4. 11 加 以 说 明 。 
例 4.10 文法 G5 含有 直接 左 递 归 : 
S—> Sa 
S>b 
REP ÆA L= {ba"|n>=0} ,输入 串 baaaa # SEIKI i IY AF APL A D F AT 
可 看 出 , 当 输入 符 为 上 时 ,为 与 2 匹配 则 应 选用 S 一 "来 推导 ,但 这 样 就 推 不 出 后 边 部 分 ;而 
车 用 S> Sa 推导 则 出 现 图 4.6 的 情况 ,无 法 确定 到 什么 时 候 才 用 Sb 替换 。 


A 
a a 
a a 
ro ae vay 
le 1 c 
3 AA AA 
B bi 1 B b 
ra 1 | i | 
bia Pe 
1 
和 1 
a (a) (b) 
图 4.6 含 直接 左 递归 文法 的 语法 分 析 树 结构 图 4.7 含 间 接 左 递归 文法 的 语法 分 析 树 


例 4.11 文法 G6 含有 间接 左 递归 : 

(1) A>aB 

(2) A>Bb 

(3) BoAc 

(4) Bod 

车 有 输入 串 为 adbcbcbc# , 当 分 析 过 程 至 A> aB>aAc>aBbe 时 ,B 若 用 产生 式 (4) 蔡 
换 , 则 分 析 过 程 的 语法 树 为 图 4.7(a) 。 推 导 到 此 终止 ,不 能 推出 adbebcbe # ;而 车 选用 产生 
RG) , 则 会 出 现 图 4.7(b) 所 示 的 情况 。 

自 左 向 右 分 析 法 在 没有 与 当前 输入 符号 匹配 而 进入 产生 式 选 择 循环 时 只 能 用 带 回溯 的 
不 确定 分 析 方法 。 此 方法 将 在 4.4 节 介绍 。 

由 上 述 例子 不 难看 出 含有 左 递归 的 文法 绝对 不 是 LL(1) 文 法 (对 此 结论 读者 可 以 自己 
证 明 ) ,所 以 也 就 不 可 能 用 确定 的 自 顶 向 下 分 析 法 。 然 而 ,为 了 使 某 些 含有 左 递归 的 文法 经 
等 价 变换 消除 左 递归 后 可 能 变 为 LL(1) 文 法 ,可 采取 下 列 方法 。 


- 8] > 


1. 消除 直接 左 递归 
把 直接 左 递归 改写 为 右 递 归 。 例 如 ,对 文法 G5: 
S —> Sa 
Sb 
可 改写 为 
S>bS' 
S’>aS' |e 
改写 后 的 文法 和 原文 法 产生 的 语言 句子 集 都 为 {ba" | n>0 } ,不 难 验 证 改写 后 的 文法 为 LL(1) 
文法 。 


一 般 情 况 下 ,假定 关于 A 的 全 部 产生 式 是 
A Aa, | Aa, | + | Aan | PB | & | | Bo 
HP a, ISI BE F ep AJR A 开头 ,消除 直接 左 递归 后 改写 为 
ABA’ | RA’ | | BA’ 
A’ 一 aaA' | aA | | aA’ |e 


2. 消除 间接 左 递 归 

要 消除 间接 左 递归 , 需 先 通过 产生 式 非 终结 符 置 换 , 将 间接 左 递归 变 为 直接 左 递归 , 然 
后 再 按 (1) 消 除 直 接 左 递归 。 

以 文法 G6 为 例 : 

(1) A>aB 

(2) A>Bb 

(3) B>Ac 

(4) Bod 

用 产生 式 (1) (2) 的 右 部 置换 产生 式 (3) 中 的 非 终结 符 A AERA B 的 产生 式 : 

(1) B>aBc 

(2) B>Bbe 

(3) Bod 

消除 左 递归 后 得 

B— aBcB’ | dB’ 
B’ + bcB’ | e 

再 把 原来 其 余 的 产生 式 AaB 和 A 一 Bb 加 入 ,最 终 文法 为 

(1) A>aB 

(2) A>Bb 

(3) BaBcB' |dB’ 

(4) B'—>bcB' |e 

该 文法 与 G6 等 价 , 即 它们 产生 相同 的 句子 集 。 

读者 可 以 检验 改写 后 的 文法 是 否 为 LL(1) 文 法 。 

3. 消除 文法 中 一 切 左 递归 的 算法 

对 文法 中 一 切 左 递归 的 消除 要 求 文法 中 不 含 回 路 , 即 无 A SA 的 推导 。 
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满足 这 个 要 求 的 充分 条 件 是 ,文法 中 不 包含 形 如 A 一 A 的 有 害 规则 和 Ae 的 空 产生 式 。 
算法 步骤 如 下 : 
(1) 把 文法 的 所 有 非 终结 符 按 某 一 顺序 排序 ,例如 : 
Ay» Azo" >A, 
(2) FOR i +=1 TO N DO 
BEGIN 
FOR j :=1 TO i—1 DO 
BEGIN 
E A; 的 所 有 产生 式 为 
Ai 一 6 lð: | ++ l 
将 其 替换 形 如 Ai 一 Air 的 产生 式 得 到 
A> rl òrle lkr 
END 
消除 A; 中 的 一 切 直 接 左 递归 。 
END 


(3) 去 掉 无 用 产生 式 。 
例如 , 按 上 述 方法 消除 如 下 文法 的 一 切 左 递归 : 
(1) S>Qcle 
(2) Q>Rb|b 
(3) R>Sala 
若非 终结 符 排序 为 S.Q、R, 左 部 为 S 的 产生 式 (1) 无 直接 左 递归 , 左 部 为 Q 的 产生 式 
(2) 中 右 部 不 含 S, 所 以 把 产生 式 (1) 的 右 部 代入 产生 式 (3) 得 
(4) R>Qca|cala 
再 将 产生 式 (2) 的 右 部 代入 产生 式 (4) 得 
(5) R>Rbcalbcalcala 
对 产生 式 (5) 消 除 直 接 左 递归 得 
R —> bcaR' | caR’ | aR’ 
R’ > bcaR’ | e 
最 终 文 法 变 为 
S>Qc |c 
Q—>Rb |b 
R —> bcaR’ | caR’ | aR’ 
R’ 一 pcaR | e 
若非 终结 符 的 排序 为 RQ、S, 则 把 产生 式 (3) 代 入 产生 式 (2) 得 
Q— Sab | ab | b 


再 将 此 代入 产生 式 (1) 得 
S —> Sabe | abe | be | c 
消除 该 产生 式 的 左 递归 后 ,文法 变 为 
S 一 abcS' | bcS’ | cS’ 
S’ + abcS’ | € 
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Q>Rb\b 
R—>Sala 
由 于 QR 为 不 可 到 达 的 非 终结 符 , 所 以 以 QLR 为 左 部 及 包含 Q、R 的 产生 式 应 删除 。 最 终 
文法 变 为 
S —> abcS' | bcS’ | cS’ 
S’ >abce S’ | e 
当 非 终结 符 的 排序 不 同时 ,最 后 结果 的 产生 式 形式 不 同 , 但 它们 是 等 价 的 。 


4.4 不 确定 的 自 顶 向 下 分 析 思 想 


在 4.1 节 至 4.3 节 中 可 以 很 清楚 地 看 到 , 当 文 法 不 满足 LL(1) 时 , 则 不 能 用 确定 的 自 项 
向 下 分 析 , 但 在 这 种 情况 下 可 用 不 确定 的 自 顶 向 下 分 析 , 也 就 是 带 回溯 的 自 顶 向 下 分 析 。 引 
起 回溯 的 原因 是 : 在 文法 中 当 关 于 某 个 非 终结 符 的 产生 式 有 多 个 候选 时 ,而 面临 当前 的 输 
入 符 无 法 确定 选用 唯一 的 产生 式 , 从 而 引起 回溯 , 现 以 下 面 3 个 简单 例子 来 说 明 。 

1. 由 于 相同 左 部 的 产生 式 的 右 部 FIRST 集 交 集 不 为 空 而 引起 回溯 

例如 ,有 文法 : 

S>rAy 

A—>abla 
若 当前 输入 串 为 zay, 则 可 能 的 第 一 步 推导 树 为 图 4.8(a)。 进 一 步 推导 对 A 可 选择 A 一 ab 
替换 ,得 语法 树 为 图 4.8(b) ,其 中 za 都 已 匹配 ,当前 面临 的 输入 符 为 y 与 5 不 能 匹配 ,所 以 
将 输入 串 指 针 退 回 到 a, 对 A 的 替换 重新 选用 下 一 个 产生 式 A 一 a 进行 试探 ,如 图 4.8(c) 所 
示 。 输 入 串 中 当前 符 a 得 到 匹配 ,指针 向 前 移动 到 y, 与 语法 树 中 y 匹配 ,匹配 成 功 。 


S S S 
ZIN ZIN ZIN 
x A Yy x A 了 x A y 

AVN | 

(a) (b) (c) 

图 4.8 不 确定 的 自 顶 向 下 语法 分 析 树 ( 一 ) 


2. 由 于 相同 左 部 非 终 结 符 的 右 部 存在 能 已 e 的 产生 式 , 且 该 非 终 结 符 的 FOLLOW 集 
中 含有 其 他 产生 式 右 部 FIRST 集 的 元 素 

例如 例 4. 4 的 文法 : 

(1) S>aAS 

(2) S>b 

(3) A>bAS 

(4) Ae 

对 输入 串 ab H 的 试探 推导 过 程 在 图 4.9 中 给 出 。 当 面临 a 时 ,用 产生 式 (1) 推 导 ,a 得 
到 匹配 ,输入 串 指针 移 到 2, 语法 树 中 可 用 A 向 下 推导 ,而 对 A 的 产生 式 , 可 选 产生 式 (3) 或 
产生 式 (4) , 先 试 选用 产生 式 (3) 推 导 。 
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4.9 不 确定 的 自 顶 向 下 语法 分 析 树 ( 二 ) 


这 时 4b 得 到 匹配 ,输入 串 指针 向 右 移 动 ,输入 符 已 结束 ,但 从 语法 树 可 以 看 出 ,末端 结 点 
并 非 全 是 终结 符 , 而 且 ab 右 部 的 非 终 结 符 ASS 不 能 推出 ,所 以 可 知 推导 是 失败 的 , 需 回 洲 
使 输入 指针 退回 到 ,对 A 的 推导 改 为 选用 下 一 个 产生 式 A>e, 对 65 用 A 的 后 跟 符 匹配 。 

继续 用 S 的 产生 式 和 6 匹配 ,S 的 两 个 产生 式 只 能 选用 S 一 5b, 则 最 终 得 到 匹配 , 试 推 
成 功 。 

3. 由 于 文法 含有 左 递 归 而 引起 回溯 

例如 ,有 文法 : 

(1) S>Sa 

(2) Sb 

若 推导 baa # ,开始 由 于 当前 输入 符 是 5, 所 以 试图 用 产生 式 (2) 推 导 , 对 应 语法 树 为 
图 4.10(a)。 


E EEE. 
LL 
| 


b 
(a) (b) (c) (d) (e) 


图 4.10 不 确定 的 自 顶 向 下 语法 分 析 树 (三 》 


这 时 推导 树 的 末端 结 点 都 是 终结 符 , 输 入 串 未 分 析 完 ,所 以 应 重新 选用 产生 式 (1) 来 推 
导 ,对 应 语法 树 为 图 4. 10(b) 。 

语法 树 末 端 结 点 最 左 符号 为 非 终 结 符 , 当 前 输入 符 为 5, 所 以 选用 产生 式 (2) 继 续 推导 ， 
得 语法 树 为 图 4. 10(c) 。 

此 时 语法 树 最 左边 的 符号 为 终结 符 b 与 当前 符号 匹配 ,语法 树 下 一 符号 与 输入 串 的 下 
一 符号 都 为 a, 所 以 匹配 ,但 语法 树 的 末端 结 点 只 有 两 个 终结 符 ,而 输入 串 还 有 剩余 部 分 
at ,所 以 要 把 第 2 步 的 推导 回溯 ,输入 串 指 针 也 恢复 到 第 一 个 符号 ,对 第 2 步 推导 的 重新 选 
择 只 有 选择 产生 式 (1) 。 相 应 语法 树 为 图 4. 10(d) 。 

这 时 语法 树 的 最 左 未 端 结 点 为 非 终结 符 5, 当前 输入 符 为 5, 所 以 试用 产生 式 (2) 推 导 ， 
得 语法 树 为 图 4. 10(e) 。 

当前 输入 符 与 语法 树 最 左 未 端 结 点 匹配 ,剩余 的 输入 符 aa 与 语法 树 其 余 的 末端 结 点 也 
逐个 相 匹 配 , 最 后 遇 到 输入 串 结束 符 , 所 以 分 析 成 功 。 
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由 以 上 讨论 可 以 看 出 , 带 回溯 的 自 项 向 下 分 析 是 一 个 试探 过 程 , 当 分 析 不 成 功 时 则 推翻 
分 析 , 退 回 到 适当 位 置 , 再 重新 试探 其 余 候选 可 能 的 推导 ,这 样 需 要 记录 已 选 过 的 产生 式 , 直 
到 把 所 有 可 能 的 推导 序列 都 试 完 仍 不 成 功 , 才 能 确认 输入 串 不 是 该 文法 的 句子 而 报错 ,由 于 
在 编译 程序 真正 实现 时 往往 是 边 分 析 边 插入 语义 动作 ,因而 带 回溯 分 析 代价 很 高 ,效率 很 
AER ,在 实用 编译 程序 中 几乎 不 用 ,因此 对 它 实 现 的 详细 算法 不 做 介绍 。 


4.5 LL(1) 分 析 的 实现 


本 节 介绍 两 种 常用 的 LL(1) 分 析 的 实现 方法 。 
4.5.1 递归 下 降 LL(1) 分 析 程 序 


在 递归 下 降 LL(1) 分 析 程 序 的 设计 中 ,每 个 非 终 结 符 都 对 应 一 个 分 析 子 程序 ,分 析 程 
序 从 调用 文法 开始 符号 所 对 应 的 分 析 子 程序 开始 执行 。 非 终结 符 对 应 的 分 析 子 程序 根据 下 
一 个 单词 符号 可 确定 自 顶 向 下 分 析 过 程 中 应 该 使 用 的 产生 式 ,根据 所 选 定 的 产生 式 ,分 析 子 
程序 的 行为 依据 产生 式 右 端 依次 出 现 的 符号 来 设计 : 
。 每 遇 到 一 个 终结 符 , 则 判断 当前 读 入 的 单词 符号 是 否 与 该 终结 符 相 匹 配 (只 要 求 单 
词 符号 与 该 终结 符 对 应 ,不必 考虑 单词 自身 的 值 ), 若 匹配 , 则 继续 读 取 下 一 个 单词 
符号 ; 若 不 匹配 , 则 进行 错误 处 理 。 
。 每 遇 到 一 个 非 终结 符 , 则 调用 相应 的 分 析 子 程序 。 
例如 , 设 有 如 下 产生 式 : 
<function> -FUNC ID( <parameter_list> ) <statement> 
FP. <function> .<parameter_list> #il< statement > SEAE #4 44  . ii FUNC 和 ID 是 终 
BEE. FE FEAL <function> fy ME — PE R, HS ZAR i FF function > Xf W 1 4 MTF 
程序 ParseFunction() 的 设计 可 描述 为 


void ParseFunction() 


{ 


MatchToken(T_FUNC) ; //T_FUNC 为 终结 符 FUNC 对 应 的 单词 种 别 
MatchToken(T_ID)， //T_ID 为 终结 符 ID 对 应 的 单词 种 别 
MatchToken(T_LPAREN) ; //T_LPAREN 为 终结 符 ( 对 应 的 单词 种 别 
ParseParameterList() ; 

MatchToken(T_RPAREN) ; //T_RPAREN 为 终结 符 )' 对 应 的 单词 种 别 


ParseStatement() ; 


} 


其 中 ,ParseParameterList() 和 ParseStatement O) 4} Hl) J JF 2 45 4f < parameter _list > il 
<statement> Xf M 9 4) OTF BUY . Mi pA MatchToken() 则 是 用 于 匹配 当前 终结 符 和 正在 
扫描 的 单词 符号 ( 若 匹 配 , 则 调用 词法 分 析 程序 取 下 一 个 单词 符号 ;和 否则 报告 词法 错误 信 
M). PAR MatchToken() 的 一 种 简单 的 设计 为 

void MatchToken(int expected) 
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if (lookahead ! 一 expected) // 判 别 当 前 扫描 的 单词 符号 是 否 与 期 望 的 终结 符 匹 配 
{ 


printf( "syntax error \n"); // 若 不 匹配 , 则 报告 出 错 信息 ,跳出 
exit(0); 
} 
else // 若 匹配 , 消 掉 当 前 单词 符号 ,从 词法 分 析 程 序 读 人 下 一 个 单词 符号 
lookahead= getToken() ; // 并 将 该 单词 符号 的 单词 种 别 赋值 给 lookahead 


} 


其 中 ,lookahead 为 全 局 量 , 存 放 当 前 所 扫描 单词 符号 的 单词 种 别 。 
在 随后 的 讨论 以 及 例子 中 ,将 继续 使 用 全 局 量 lookahead 和 MatchToken() 函 数 。 为 叙 
述 简洁 ,如 不 特别 指明 ,后 面 将 文法 中 的 终结 符 直接 用 来 代表 当前 所 扫描 单词 符号 的 单词 
种 别 。 
一 般 情况 下 , 设 LL(1) 文 法 中 某 一 非 终 结 符 A 对 应 的 所 有 产生 式 的 集合 为 
A u; | uz |e | un 
那么 相对 于 非 终结 符 A 的 分 析 子 程序 ParseA() 可 以 具有 如 下 形式 的 一 般 结构 : 
void ParseA() 
{ 
switch (lookahead) 
{ 
case SELECT (A —u:): 
neni /* 根 据 w 设计 的 分 析 过 程 * / 
break; 
case SELECT (A -az ) : 
cha /* 根 据 us 设计 的 分 析 过 程 * / 
break; 
case SELECT (A —x,): 
was /* 根据 wu 设计 的 分 析 过 程 * / 
break; 
default: 
printf("syntax error \n"); 
exit(0); 


} 


值得 注意 的 是 ,由 于 是 LL(1) 文 法 ,所 以 产生 式 A u, A uz., A ee, 的 SELECT 
集合 是 两 两 互 不 相交 的 , 故 上 述 选择 语句 中 的 各 个 选择 之 间 是 互 斥 的 。 

例 4.12 设 文法 GLS] 为 

S AaS | BbS\d 

A—x 

Belc 
容易 计算 出 各 产生 式 的 SELECT 集合 : 
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SELECT (S AaS) = {a} 
SELECT (S 3BbS) = {c.b} 
SELECT (S —x) = {d} 
SELECT (A -») = {a} 
SELECT (Be) = {b} 
SELECT (B -x) = {c} 
因为 SELECT (S AaS ), SELECT (S 3BbS) 以 及 SELECT (Sx) 互 不 相交 ， 
SELECT (B +) fl SELECT (S 1) A #138 HVA .GLS LE LL(1) 文 法 。 
这 样 ,开始 符号 S 对 应 的 分 析 子 程序 可 以 设计 为 


void ParseS( ) 
{ 
switch (lookahead) 
{ 
case a; 
ParseA( ); 
MatchToken(a) ; 
ParseS( ); 
break; 
case b,c; 
ParseB( ); 
MatchToken(b) ; 
ParseS( ); 
break; 
case d; 
MatchToken(d) ; 
break; 
default: 
printf(" syntax error \n") 


exit(0); 


i 
终结 符 A 对 应 的 分 析 子 程序 可 以 设计 为 


void ParseA( ) 
{ 
if (lookahead= =a) 
{ 
MatchToken(a) ; 
} 
else 
{ 
printf("syntax error \n"); 
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exit(0) 5 


} 
终结 符 B 对 应 的 分 析 子 程序 可 以 设计 为 : 


void ParseB( ) 
{ 
if (lookahead==c) 
{ 
MatchToken(c) ; 
} 
else if (lookahead= =b) { 
} 
else { 
printf{("syntax error \n"); 


exit(O) 5 


} 

在 实践 中 ,这 种 递归 下 降 分 析 程 序 的 设计 思想 也 可 用 于 其 他 的 语法 描述 形式 。 例 如 ,在 
EBNF 形式 的 语法 描述 中 ,每 一 条 规则 右 部 的 语法 成 分 之 间 除 了 可 以 有 连接 算 符 之 外 ,还 包 
含 其 他 一 些 算 符 ,主要 有 选择 ,重复 、 任 选 以 及 优先 括号 等 。 这 种 更 加 丰富 的 表达 方式 有 利 
于 精简 分 析 子 程序 的 设计 ,从 而 提高 递归 下 降 分 析 程 序 的 效率 。 在 递归 下 降 分 析 子 程序 的 
设计 中 ,针对 不 同 算 符 ,可 选择 不 同 的 处 理 语句 : 

。 Xi1|X,|… Xn: 表示 多 个 成 分 之 间 的 选择 ,可 对 应 到 选择 语句 。 

。 (X): 表示 成 分 X 的 重复 (0 到 多 次 ) ,可 对 应 到 循环 语句 。 

。 [X]: 表示 成 分 X 的 任 选 (0 或 1 次 ) ,可 对 应 到 if-then 语句 。 

© (X): 表示 成 分 X 的 优先 处 理 , 可 对 应 到 复合 语句 。 

在 处 理 多 个 成 分 之 间 的 选择 时 ,也 需要 保证 各 成 分 的 SELECT 集合 之 间 互 不 相交 。 计 
算 SELECT 集合 ,需要 先 计算 出 必要 的 FIRST 集合 和 FOLLOW 集合 ,它们 的 含义 与 本 章 
中 上 下 文 无 关 文法 下 相应 的 概念 类 似 。 由 于 本 书 不 涵盖 有 关 EBNF 形式 定义 的 内 容 , 所 以 
这 里 不 给 出 这 些 集合 的 严格 定义 ,而 是 在 随后 介绍 的 实例 中 进行 必要 的 讨论 。 为 帮助 理解 
这 些 实例 ,下 面 列 出 关于 FIRST 集合 的 一 些 性 质 : 

。 FIRST(CX |X: |+ | X,,)=FIRSTCX,)U …UFIRSTCX。) 

。 FIRST({X})=FIRSTCX) U {8} 

。 FIRST([ X ])=FIRST(X) U {se} 

* FIRST X ))=FIRST(X) 

附录 A 中 的 PL/0 语法 分 析 程 序 是 基于 表 4. 3 的 EBNF 形式 的 语法 描述 设计 的 递归 下 
降 分 析 程 序 。 相 比 第 1 章 表 1. 1 中 PL/0 语言 语法 的 EBNF 描述 , 表 4. 3 的 EBNF 规则 较 
少 , 只 有 9 条 ,因此 在 PL/0 语法 分 析 程 序 中 对 应 设计 了 9 个 分 析 子 程序 。 
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表 4.3 改进 后 的 PL/0 语言 语法 的 EBNF 描述 


说 法 单位 EBNF 描述 
去 程序 > : :二 之 分 程序 >. 
:: 二 [const 二 常量 定义 二 { ,二 常量 定义 二 );] 
[ var 一 变量 定义 汪 { ,一 变量 定义 汪 }; ] 
SARR [ {procedure 一 id 二 ;二 分 程序 >;} ] 
<H> 
二 常量 定义 > |1 =< R> =<integer> 
二 变量 定义 > | ::=<id> 
t= <id> 一 二 表达 式 > 

if 二条 件 then 一 语句 二 

while 一 条 件 > do 一 语句 二 

call <id> 
<a> read (<id> (<id>)9， 

write (<RER>{( <RER>) N 

begin 一 语句 之 {; 二 语句 之 } end 

e 
<> :一 之 表达 式 >> (=|# |< I<=|> |>=) < 表达 式 >> |odd <AR> 
<BR> n= [十 | 一 ] < 项 >{( 十 | 一 ) < 项 >} 
二 项 > t= <AF>(( * |/) <BF>} 
<AF> :: 二 <id> |<integer> |"“<#IAR>' 


需要 验证 一 下 表 4. 3 的 EBNF 描述 中 任何 一 个 含有 选择 算 符 的 子 表达 式 的 所 有 下 一 
级 子 表达 式 的 SELECT 集合 是 互 不 相交 的 。 对 于 下 列 分 析 过 程 ,必要 时 可 参考 4. 6. 3 节 的 
表 4.6, 其 中 列举 了 表 4. 3 中 描述 的 PL/0 部 分 语法 单位 的 First 集合 和 Follow 集合 。 

对 于 二 因子 过 规则 中 的 选择 表达 式 一 id| 一 integer 二 | (< 表达 式 之 ), 下 一 级 的 子 表达 
a <id> ,一 integer 之 和 (过 表达 式 二 ?的 FIRST ADIA { <id> }, {<integer> } AC, HT 
以 这 3 个 子 表达 式 的 SELECT 集合 是 互 不 相交 的 。 同 样 ,对 于 二 项 二 规则 中 的 * |/, 志 表 
A> 规则 中 的 两 处 十 | 一 ,以 及 二 条 件 二 规则 中 的 二 1# | 二 |<=|> | 二 = 等 含有 选 
择 算 符 的 子 表达 式 , 都 容易 计算 出 它们 下 一 级 子 表达 式 的 FIRST 集合 ,实际 上 也 是 
SELECT 集合 ,并 可 以 验证 这 些 SELECT 集合 之 间 是 互 不 相交 的 。 

对 于 二 条 件 规则 中 的 选择 表达 式 , 可 以 计算 出 

。 FIRST(<#iKR> (=| # |< I<=|> |>=) <RKRS)=(+,—-—,<id>, 

<integer>."('} 

。 FIRST (odd <#ikst >) =(odd} 

可 见 ,这 两 个 子 表达 式 的 SELECT 集合 不 相交 。 

对 于 到 语句 之 规则 右边 的 选择 表达 式 , 子 表达 式 一 id> := 所 表达 式 二 ,让 二 条 件 > 
then 一 语句 二 ,while <t> de 一 语句 二 ,call <id>.read '(' 一 id 二 {.<id>}")', write 
C< RIMS (,< KIA} begin 一 语句 过 {; 到 语句 之 》 end 和 空 语句 s 的 FIRST 集 
合 分 别 是 { 一 id 二 六 (if) .{ while} , {call} , {read} . {write}. {begin} 和 {se)。 显 然 , 除 空 语句 外 ， 
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其 余 7 个 下 一 级 子 表 达 式 的 SELECT 集合 就 是 它们 的 FIRST 集合。 另外 ,借助 直观 的 理 
解 ,可 以 根据 表 4.3 的 EBNF 描述 得 知 空 语句 的 FOLLOW 集合 为 fend,. } ,从 而 可 知 ,其 
SELECT 集合 为 {end,. } 。 显 然 ,这 些 SELECT 集合 之 间 是 互 不 相交 的 。 

通过 以 上 分 析 , 可 以 得 出 结论 : 对 于 表 4. 3 的 EBNF 描述 ,在 任何 一 个 含有 选择 算 符 的 
子 表 达 式 中 , 它 的 所 有 下 一 级 子 表达 式 的 SELECT 集合 是 互 不 相交 的 。 这 样 ,就 可 以 基于 
这 个 EBNF 描述 设计 一 个 通过 向 前 察看 一 个 单词 符号 的 递归 下 降 分 析 程 序 实现 PL/0 语言 
的 语法 分 析 。 

PL/0 语法 分 析 程 序 由 8 个 分 别 与 表 4. 3 中 的 语法 规则 直接 对 应 的 递归 子 过 程 组 成 

。 block() 对 应 二 分 程序 二。 

。 constdeclaration() 对 应 二 常量 定义 二 。 
vardeclaration() 对 应 二 变量 定义 二 。 
statement() 对 应 一 语句 二 。 
* condition() 对 应 二 条 件 二 。 
。 expression() 对 应 二 表达 式 二 。 
term() 对 应 二 项 二 。 

。 factor() 对 应 二 因子 二 。 

表 4. 3 中 所 程序 二 对 应 的 分 析 过 程 包含 于 PL/0 编译 程序 的 主 函 数 main, PARK 
main() 的 程序 结构 为 


int main() 
{ 
yee / * 初始化 */ 
ih /* 读 写 文件 * / 
getsym(); 
block(...... ) /* 处 理 一 分 程序 之 * / 
if (sym ! = period) 
error(9); /* 提示 9 号 出 错 信 息 :缺少 程序 结束 符 .'*/ 


return 0; 


) 


每 个 递归 子 过 程 的 内 容 都 是 根据 相应 规则 的 右 部 来 设计 的 。 例 如 ,根据 表 4. 3 中 二 表 
达 式 二 .二 项 二 和 去 因子 二 等 规则 ,PL/0 语法 分 析 程 序 中 包含 expression O , term O 和 
factor() 等 分 析 子 过 程 (函数 ) ,它们 的 程序 结构 为 


int expression(...... ) 
{ 
if (sym= =plus || sym= = minus) /* 处理 十 | 一 */ 
getsym(); 
term (...... ); /* 处 理 << 项 二 * / 


. 9] 。 


while (sym= =plus || sym= = minus) 


{ 


getsym; 
term (...... ); 
} 
return 0; 
} 
int term(...... ) 
{ 
factor(...... 3 


while (sym= = times||sym==slash) 
{ 

getsym() ; 

factor(...... ); 
} 


return 0; 


int factor (...... ) 
í 
if (sym==ident) { 
getsym(); 
elseif (sym==number) 
getsym(); 
else if(sym==Iparen) ; 
{ 
expression(...... ); 
if (sym= =rparen) 
getsym(); 
else 
error(22) ; 
} 
return 0; 


} 


4.5.2 表 驱 动 LL(1) 分 析 程 序 


/* 处 理 二 项 > */ 


/* 处 理 {( 十 | 一 ) <B>} */ 


/* 处 理 二 项 二 */ 


/ * SRIB< AF > * / 
/* 处 理 {(* | /)<AF>} */ 


/* 处 理 王 因子 之 * / 


/* 过 因子 二 为 常量 或 变量 * / 


/* 二 因子 > 为 立即 数 * / 


/* <BF>ACCRERS) * / 


/* 处 理 << 表 达 式 之 */ 


/* 提 示 22 号 出 错 信息 : 缺少 右 括号 * / 


递归 下 降 分 析 程 序 比较 直观 ,容易 设计 ,但 不 足 之 处 就 是 递归 调用 可 能 带 来 的 效率 问 
题 。 本 节 介 绍 另外 一 种 LL(1) 分 析 程 序 的 实现 方法 , 称 为 表 驱 动 的 方法 。 一 个 表 驱 动 的 
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LL(1) 分 析 程 序 由 预测 分 析 程 序 、 先 进 后 出 栈 和 预测 分 析 表 3 个 部 分 组 成 ,其 中 只 有 预测 分 
析 表 与 文法 有 关 ,而 分 析 表 又 可 用 一 个 矩阵 M( 或 称 二 维 数组 ) 表 示 。 和 矩阵 的 元 素 MLA] 
中 的 下 标 A 表示 非 终 结 符 ,a 为 终结 符 或 句子 括号 # ,矩阵 元 素 MLA,a] 中 的 内 容 是 一 条 关 
于 A 的 产生 式 , 表 明 当 用 非 终结 符 A 向 下 推导 时 ,面临 输入 符 a 时 所 应 采取 的 候选 产生 式 。 
当 元 素 内 容 无 产生 式 时 , 则 表明 用 A 为 左 部 向 下 推导 时 遇 到 了 不 该 出 现 的 符号 ,因此 元 素 
内 容 为 转向 出 错 处 理 的 信息 。 

预测 分 析 程 序 的 工作 过 程 用 图 4. 11 表示 。 


1 
H SHER SARERA 


li 1 
= 上 托 栈 顶 符号 放 入 X 
X> xr Xy 


按 逆序 即 w…xaxi ! 是 
入 栈 n? ? 
fe ; 起 

MX aeRO? Zo 99 / 否 
E 
出 错 


ya 
m 
> 


出 错 


是 


图 4.11 预测 分 析 程序 的 流程 图 


图 中 符号 说 明 如 下 : 

' 井 是 句子 括号 , 即 输 入 串 的 括号 。 

SS 是 文法 的 开始 符号 。 

X 是 存放 当前 栈 顶 符号 的 工作 单元 。 

4 是 存放 当前 输入 符号 a 的 工作 单元 。 

现 以 表达 式 文法 为 例 构造 预测 分 析 表 。 表 达 式 文法 为 : 
E>E+T|T 
T>T*F\|F 
F>i|(E) 

构造 步骤 如 下 。 

(1) 判断 文法 是 否 为 LL(1) 文 法 。 

由 于 文法 中 含有 左 递归 ,所 以 必须 先 消除 左 递归 ,使 文法 变 为 
E> TE’ 
E’ ++ TE’ |e 
T > FT’ 
T’> * FT’ le 
F—i|(E) 

根据 第 4. 2 节 的 内 容 可 得 以 下 结果 。 
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© 可 推出 。 的 非 终 结 符 表 为 


E 


E 


否 


是 


© 各 非 终结 符 的 FIRST 集合 如 下 : 


© 各 非 终结 符 的 FOLLOW 集合 为 
FOLLOW(E) = {),#} 
FOLLOW(E’) = {).#} 


FIRST(E) = {(,7} 
FIRST(E’) = {+,e} 
FIRST(T) = {(,7} 


FIRST(T’) = { * ,e} 


FIRST(F) = {(,7} 


FOLLOW(T) = {+,).#} 
FOLLOW(T’) = {+.).#} 
FOLLOW(F) = {*,+,),#} 
® 各 产生 式 的 SELECT 集合 为 


SELECT(E 一 


E’) = {Ci} 


SELECT(E’ ++ TE’) = {+} 
SELECT(E’ +e) = {),#} 
SELECT(T — FT’) = {Gi} 
SELECT(T’ > * FT’) = {*} 
SELECT(T’ > e) = {+,),#} 


SELECT(F > (E)) = {(} 
SELECT(F — i) = {i} 


由 上 可 知 , 有 相同 左 部 产生 式 的 SELECT 集合 的 交集 为 空 ,所 以 文法 是 LL(1) 文 法 。 


(2) 构造 预测 分 析 表 。 


对 每 个 终结 符 或 '# 号 用 a 表示 。 


车 a€ SELECT(A>a), 则 把 A>a 放 入 MLA,aj 中 。 


把 所 有 无 定义 的 MLA .aj 标 上 出 错 标 记 。 
为 了 使 表 简 化 ,其 产生 式 的 左 部 可 以 不 写 入 表 中 , 表 中 空白 处 为 出 错 。 
上 例 的 预测 分 析 表 为 表 4. 4。 


表 4.4 表达 式 文法 的 预测 分 析 表 


i + ( ) # 
E TE —>TE' 
E >+TE —>e >e 
T >FT >FT 
T -=g >*FT igi >e 
F >i {E} 
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下 面 用 预测 分 析 程 序 、 栈 和 预测 分 析 表 对 输入 串 iixi# 进 行 分 析 , 栈 的 变化 过 程 在 
表 4.5 中 给 出 。 


表 4.5 对 符号 串 i+ixi# 的 分 析 过 程 


步 OR 分 析 栈 剩余 输入 串 推导 所 用 产生 式 或 匹配 
1 +E i+i*i# E>TE’ 
2 #E'T iti*i# T>FT 
3 #E'T'F iti*i# F>i 
4 #E'T'i i+i*i# “Pe 
5 #ET’ +i*i# Te 
6 +E +ixi#t E'>+TE 
7 #E'T+ +ixi#t “十 ”匹配 
8 #E'T ixi# T>FT 
9 #E'T'F ixi# F>i 
10 #E'T'i i*i# “P 
11 #E'T' *i# T > * FT’ 
12 #ET'F * *i# “x ”匹配 
13 #E'T'F i# F>i 
14 #E'T'i i# “7? 0G Be 
15 #E'T' # Te 
16 #E # E'>e 
17 + # 接受 


4.6 LL(1) 分 析 中 的 出 错 处 理 


在 编译 程序 设计 中 ,错误 处 理 主要 包含 两 个 方面 的 任务 : 一 是 报错 ,发 现 错误 时 应 尽 可 
能 准确 指出 错误 位 置 和 错误 属性 ;二 是 错误 恢复 , 尽 可 能 进行 校正 ,使 编译 工作 可 以 继续 下 
去 ,提高 程序 调试 的 效率 。 

关于 如 何 设计 错误 处 理 程序 ,目前 并 没有 特别 值得 关注 的 理论 成 果 。 本 节 只 简单 讨论 
LL(1) 分 析 过 程 中 实现 错误 处 理 的 最 基本 方法 。 


4.6.1 应 急 恢 复 


对 于 表 驱 动 LL(1) 分 析 , 在 以 下 两 种 情况 下 需要 报错 : 

。 栈 项 的 终结 符 与 当前 输入 符号 不 匹配 。 

© 非 终结 符 A 位 于 栈 顶 ,面临 的 输入 符号 为 a ,但 分 析 表 M 的 表 项 MLA ,aj 为 空 。 

一 种 简单 的 错误 恢复 措施 是 应 急 恢 复 (panic-mode error recovery)。 例 如 ,在 表 驱 动 
LL(1) 分 析 中 ,可 以 专 为 表 项 MLA .a] 为 空 的 情形 指定 一 些 所 谓 的 同步 符号 。 在 分 析 过 程 
中 遇 到 这 种 情形 时 ,就 跳 过 输入 符号 串 中 的 一 些 符号 直至 遇 到 同步 符号 为 止 。 一 种 简便 的 
做 法 是 将 FIRST(A) 或 FOLLOW(A) 中 的 所 有 符号 当 作 A 的 同步 符号 ,相应 的 处 理 过 程 可 
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设计 为 : 
。 跳 过 输入 符号 串 中 的 一 些 符号 直至 遇 到 FOLLOW(A) 中 的 符号 ,然后 把 A 从 栈 中 
弹出 , 便 可 以 使 分 析 继 续 下 去 。 
。 跳 过 输入 符号 串 中 的 一 些 符号 直至 遇 到 FIRST(A) 中 的 符号 时 ,可 根据 A 恢复 分 析 。 


4.6.2 短语 层 恢 复 


另外 一 种 称 为 短语 层 恢 复 (phrase-level error recovery) 的 措施 比 上 述 方法 精确 一 些 。 
原因 在 于 ,短语 是 与 上 下 文 相 关 的 一 个 概念 ,而 上 述 只 考虑 非 终结 符 的 同步 符号 的 方法 是 与 
上 下 文 无 关 的 。 

图 4. 12 描述 了 短语 层 错误 恢复 可 采取 的 一 种 流程 : 

。 在 进入 某 个 语法 单位 的 分 析 时 ,检查 当前 符号 sym 是 否 属于 进入 该 语法 单位 需要 的 
符号 集合 BeginSym。 若 不 属于 , 则 报错 ,并 滤 去 补救 的 符号 集合 S= BeginSym U 
EndSym 外 的 所 有 符号 。 

。 在 该 语法 单位 分 析 结 束 时 ,检查 当前 符号 sym 是 否 属于 离开 该 语法 单位 时 需要 的 符 
号 集合 EndSym。 若 不 属于 , 则 报错 ,并 滤 去 补救 的 符号 集合 S= BeginSym U 
EndSym 外 的 所 有 符号 。 

© 无 论 是 上 述 哪 种 情况 , 若 遇 BeginSym 中 的 符号 , 则 重新 分 析 该 语法 单位 ; 若 遇 
EndSyn 中 的 符号 , 则 退出 该 语法 单位 的 分 析 。 


m 
i a (1) 报错 
Syme Beginsymt (2) 跳 过 BeginSym U EndSym 之 外 的 符号 
是 


EBeginSym 


symE? 


1 
当前 语法 单位 的 分 析 过 程 


EEndSym 


否 (1) 报错 ; 
< (2) 跳 过 BeginSym U EndSym 之 外 的 符号 
是 
上 


EEndSym < > EBeginSym 


图 4.12 短语 层 恢复 可 采取 的 流程 


下 面 来 看 在 递归 下 降 分 析 程 序 中 采用 短语 层 错误 恢复 的 一 个 简单 例子 。 设 有 如 下 文法 
产生 式 了 


B+LA]|CA) 
Aa 


相应 于 非 终结 符 B, 分 析 子 程序 可 设计 为 
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void ParseB ( EndSym ) 
{ 
if ( sym e{{'s'C} ) 
{ 
报错 ; 跳 过 S 之 外 的 单词 符号 ; /* S={T5'C} U EndSym */ 
while ( sym e{{',"(') ) 
i 
if (sym=={') 
{ 
MatchToken( {'); 
ParseA ( EndSymU {9} ); 


MatchToken( ‘('); 
ParseA ( EndSymU {9'} ); 
} 
if (sym ¢EndSym ) 
{ 
报错 ; 跳 过 S 之 外 的 单词 符号 ; /* S={(''C} UEndSym */ 
} 


} 

该 子 程序 对 应 于 图 4. 12 所 描述 的 流程 。BeginSym 王 人 "实际 上 是 取 FIRST (B). 
EndSym 作为 参数 ,由 上 一 级 子 程序 传人 。 值 得 注意 的 是 ,调用 下 一 级 分 析 子 程序 ParseA 
时 ,根据 A 不 同上 下 文 的 后 跟 符 号 而 使 用 了 不 同 的 参数 。 在 方 括号 上 下 文中 ,使 用 的 参数 
是 EndSymU ("]') ;而 在 圆 括号 上 下 文中 ,使 用 的 参数 是 EndSymU 1) 。 这 可 以 体现 “短语 
层 " 恢 复 的 含义 。 试 比较 ,车 不 区 分 方 插 号 还 是 圆 括号 上 下 文 ,那么 有 可 能 使 用 EndSym U 
(T) 作为 参数 ,后 果 会 如 何 ? 读者 可 以 思考 一 下 。 

相应 于 非 终 结 符 A ,分析 子 程序 可 设计 为 


procedure ParseA ( EndSym ) 
{ 
if ( lookahead ¢{ ‘a'} ) 
{ 
报错 ; 跳 过 S 之 外 的 单词 符号 ; /* S={ 'a' } U EndSym */ 
} 
while ( lookahead e{ 'a' } ) 
{ 
MatchToken ( 'a' ); 
if ( lookahead ¢EndSym ) 
{ 
报错 ; 跳 过 S 之 外 的 单词 符号 ; /* S={'a'}UEndSym * / 
} 
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4.6.3 PL/O 语法 分 析 程 序 的 错误 处 理 


PL/0 编译 程序 中 ,语法 分 析 阶 段 的 错误 处 理 过 程 采用 了 这 种 短语 层 错误 恢复 的 思想 ,其 代码 结构 体 
现 了 如 图 4. 12 所 描述 的 流程 。 
PL/0 分 析 程 序 在 进入 和 退出 某 个 语法 单位 时 ,调用 一 个 称 为 test 的 函数 : 
int test(bool * sl,bool* s2,int n) /*sl 为 需要 的 集合 ,s2 为 补救 的 集合 ,n 为 错误 编号 * / 
{ 
if (! inset(sym,sl)) 
{ 
error(n); 
while ((! inset(sym,sl)) &&. (1 inset(sym,s2))) 
{ 
getsymdo; 


} 
return 0; 


} 


图 4. 12 所 描述 的 流程 中 ,进入 和 离开 某 个 语法 单位 时 的 测试 任务 可 通过 调用 test 函数 
实现 。PL/0 分 析 程序 中 调用 test 函数 时 所 用 的 sl 和 s2 参数 对 应 图 4. 12 中 的 BeginSym 
和 EndSym。 在 进入 语法 单位 时 ,sl 为 BeginSym.s2 为 EndSym; 在 退出 语法 单位 时 ,刚好 
相反 ,s2 为 BeginSym,sl 为 EndSym 。 

这 里 的 BeginSym 被 置 为 该 语法 单位 的 FIRST 集合 ,但 不 含 8; EndSym 以 FOLLOW 
集合 为 基础 ,但 为 了 提高 错误 恢复 的 质量 ,可 以 让 它 随 不 同上 下 文 有 所 变化 。 为 方便 讨论 ， 
在 表 4.6 中 列 出 了 表 4. 3 中 描述 的 PL/0 部 分 语法 单位 的 FIRST 集合 和 FOLLOW 集合 。 

表 4.6 PL/0 部 分 语法 单位 的 FIRST 集合 和 FOLLOW 集合 


语法 单位 FIRST 集合 FOLLOW 集合 
分 程序 | const var procedure <id> if call begin while read write |. ; 
语句 <id> call begin if while read write . 3 end 
条 件 odd 十 — ( ident number then do 
è = <<=> >= 
表达 式 | + 一 <id> <integer> ( HSR oe 
then do 
i 23 J=H# < <=> > 一 十 一 
<id> < > 
项 id integer> ( abad 


Li D=# < <=> >=+ — 


<id> <i > 
因子 id integer> ( * / end then do 


下 面 以 语法 单位 “因子 ”的 处 理 为 例 加 以 说 明 。 以 下 是 对 应 的 处 理子 程序 : 


int factor(bool * fsys,***) /* fsys 对 应 EndSym */ 
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int i; 


testdo( fachegsys, fsys,24) ; / * 调用 test 函数 ,facbegsys 对 应 BeginSym * / 
while(inset(sym, facbegsys) ) /* 循环 直到 sym 不 是 facbegsys 中 的 单词 种 别 * / 
{ 
ife) 
testdo( fsys, facbegsys, 23) ; /* 调用 test 函数 */ 
} 
return 0; 


) 


其 中 ,testdo() 是 对 函数 test() 的 包装 。 

这 段 代 码 的 工作 过 程 如 图 4. 12 所 示 ,facbegsys 和 fsys 分 别 对 应 图 4. 12 中 的 BeginSym 和 
EndSym。 在 进入 一 个 语法 单位 因子 ”的 处 理 时 ,调用 test 函数 检查 当前 单词 符号 的 单词 种 
别 是 否 属于 该 语法 单位 的 facbegsys。 若 不 属于 , 则 报错 (错误 号 24) ,并 滤 去 单词 种 别 在 该 
语法 单位 的 facbegsys 和 fsys 之 外 的 所 有 单词 符号 。 这 之 后 ,如 果 首 先 遇 到 facbegsys 中 单 
词 种 别 的 单词 符号 ,那么 就 重新 开始 “因子 ”的 处 理 ; 如 果 首先 遇 到 fsys 中 单词 种 别 的 单词 
符号 ,那么 就 结束 “因子 ”的 处 理 , 继 续 接 下 来 的 分 析 过 程 。 

在 语法 单位 分 析 结 束 时 ,再 次 调用 test 函数 ,检查 当前 当前 单词 符号 的 单词 种 别 是 否 
属于 调用 该 语法 单位 时 应 有 的 fsys。 若 不 属于 , 则 报错 (错误 号 23) ,并 滤 去 单词 种 别 在 该 
语法 单位 的 facbegsys 和 fsys 之 外 的 所 有 单词 符号 。 同 样 ,在 这 之 后 ,如 果 首 先 遇 到 
facbegsys 中 单词 种 别 的 单词 符号 ,那么 就 重新 开始 “因子 ”的 处 理 ;如 果 首 先 过 到 fsys 中 单 
词 种 别 的 单词 符号 ,那么 就 结束 “因子 ”的 处 理 , 继 续 接 下 来 的 分 析 过 程 。 

fsys 随 不 同上 下 文 可 以 有 所 变化 。 例 如 ,如 果 是 在 处 理 write 语句 内 部 的 表达 式 而 调 
用 expression(fsys,…) 时 , 则 可 以 将 表 4.6 P RKR” H FOLLOW 集合 传 给 fsys; 然 而 ， 
如 果 是 在 处 理 “ 因 子 ” 下 一 层 的 表达 式 而 调用 expression (fsys,…) 时 , 则 可 以 将 这 个 
FOLLOW 集合 中 的 符号 *, ”去掉 后 传 给 fsys。 

当然 ,还 可 以 有 更 多 的 考虑 ,如 关系 运算 符 只 会 出 现在 “条 件 ” 上 下 文中 ,所 以 在 其 他 上 
下 文中 调用 expression(fsys,…) 时 ,fsys 中 可 以 去 掉 这 些 关 系 运算 符 。 

附录 A 的 PL/0 编译 程序 中 ,不 同 语法 单位 的 错误 处 理 过 程 没 有 统一 标准 ,实现 的 精细 
程度 有 所 不 同 。 值 得 注意 的 是 ,一 些 错误 恢复 代码 的 加 入 影响 到 了 整个 代码 的 可 读 性 ,读者 
在 阅读 时 应 当 将 它们 从 主体 代码 中 区 分 出 来 。 
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1. 对 文法 GLS] 
S-~al 人 |(T) 
T>T.S|S 
d) 给 出 (a,(a,a)) 和 (((a,a), 信 ,(a)),a) 的 最 左 推导 。 
(2) 对 文法 G 进行 改写 ,然后 对 每 个 非 终结 符 写 出 不 带 回 溯 的 递归 子 程序 。 
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(3) 经 改写 后 的 文法 是 否 是 LL(1) 的 ? 给 出 它 的 预测 分 析 表 。 
(4) 给 出 输入 串 (aa)# 的 分 析 过 程 ,并 说 明 该 串 是 否 为 G 的 句子 。 
2. 对 下 面 的 文法 G: 

E>TE' 

E>+Ele 

T>FT 

ToTIle 

F>PF 

Fo * Fle 

P>(E)\alol A 

(1) 计算 这 个 文法 的 每 个 非 终结 符 的 FIRST H FOLLOW 集 。 
(2) 证 明 这 个 文法 是 LL(1) 的 。 

(3) 构造 它 的 预测 分 析 表 。 

(4) 构造 它 的 递归 下 降 分 析 程 序 。 

3. 已 知 文法 GCS]: 

S>MH |a 

H—>LSo|e 

K—>dML|e 

L>eHf 

M—>K|bLM 

判断 G 是 否 是 LL(1) 文 法 ,如 果 是 ,构造 LL(1) 分 析 表 。 

4. 证 明 下 述 文法 不 是 LL(1) 的 。 

S>C$ 

C>bA|aB 

A>alaClbAA 

B—>b|bC|aBB 

能 否 构造 一 等 价 的 文法 ,使 其 是 LL(1) 的 ? 并 给 出 判断 过 程 。 
5. 文法 G 如 下 : 


<B > begin< HAR > end 

RAR >> <i >| <BR> <i > 

<HR> >< EAI A> | <I > 

<ER >a 

去 条 件 语 句 之 一 < 如果 语句 二 | 二 如 果 语 名 二 else 一 语句 二 
去 如 果 语 名 之 一 一 如 果子 句 之 忆 无 条 件 语句 之 
<M F A] >— if b then 


试 将 G 改写 为 LL(1) 文 法 .并 构造 其 预测 分 析 表 ,判断 改写 后 的 文法 是 否 为 LL(1) 
文法 。 
6. 判断 下 面 哪些 文法 是 LL(1) 的 ,哪些 能 改写 为 LL(1) 文 法 ,并 对 每 个 LL(1) 文 法 设 
计 相 应 的 递归 下 降 识别 器 。 
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(1) S>A|B 
A>aA\a 
B>bB\|b 
(2) S+AB 
A>Bale 
B~Db|D 
D>d |e 
(3) S—>aAaB|bAbB 
A>S|db 
B—>b Bla 
(4) S>i| (E) 
E>E+S|E—S|S 
(5) S*SaA|bB 
A>aB\c 
B>Bb|d 
(6) M>MaH|H 
Hb (WI MD |b 
7. 对 于 一 个 文法 若 消 除了 左 递归 ,提取 了 左 公共 因子 后 是 否 一 定 为 LL(1) 文 法 ? 试 对 
下 面 的 文法 进行 改写 ,并 对 改写 后 的 文法 进行 判断 。 
(1) A>baBle 
B—>Abb|a 
(2) A>aABela 
B>Bb|d 
(3) S>Aalb 
A—>SB 
B—>ab 
(4) S>AS|b 
A>SAla 
(5) S+Ab| Ba 
A>aA|a 
B—>a 
(6) S—>aSbS|bSaS |e 
8. 按照 本 章 介绍 的 消除 一 切 左 递归 算法 消除 下 面 文法 中 的 左 递归 (要 求 依 非 终结 符 的 
两 种 排序 方式 S.Q、P 和 Q、P、S 分 别 执行 该 算法 ): 
S -PQ |a 
P -QS |b 
Q -SP |c 
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9. 对 下 面 的 文法 : 


<bexpr>—<bexpr>or<bterm> |<bterm> 
<bterm>—><bterm>and<bfactor> | <bfactor> 
<bfactor>—not<bfactor> | (<bexpr>>) | ture| false 


构造 一 个 预测 分 析 器 。 

10. 试 为 语言 L 写 一 LL(1) 文 法 ,其 中 LL 二 {wlw€ (a1b)* Aw Pad 的 个 数 相等 } 。 

11. 在 阅读 附录 A 中 PL/0 编译 程序 的 基础 上 ， 

(1) 熟悉 该 编译 程序 的 整体 架构 ,识别 出 各 语法 单位 对 应 的 子 程序 ; 

(2) 对 应 表 4. 3 给 出 的 语法 规则 , 读 懂 各 子 程序 之 间 的 调用 关系 ; 

(3) 读 懂 词法 分 析 程 序 是 如 何 接 入 到 编译 程序 主体 的 ; 

(4) 进一步 阅读 PL/0 编译 程序 , 读 懂 出 错 处 理 相关 的 代码 。 

12. 对 附录 A 中 PL/0 编译 器 源码 进行 裁减 和 改造 ,使 其 仅 包 含 词 法 和 语法 分 析 过 程 。 
该 分 析 程 序 读 入 PL/0 语言 源 程序 ,如 果 没 有 发 现 词法 或 语法 错误 ,再 输出 其 相应 的 语法 分 
析 树 。 语 法 分 析 树 的 显示 格式 可 自行 设计 ,建议 采用 缩 进 的 文本 表示 形式 。 
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第 5 章 自 底 向 上 优先 分 析 


如 第 2 章 所 述 , 在 自 底 向 上 分 析 中 ,分 析 过 程 的 每 一 步 都 是 从 当前 句 型 中 选择 一 个 可 归 
约 的 子 串 ,将 它 归 约 到 某 个 非 终结 符号 。 实 现 自 底 向 上 分 析 最 常用 的 技术 是 移 进 - 归 约 分 
析 , 它 的 基本 思想 是 对 输入 符号 串 自 左 向 右 进行 扫描 ,并 将 输入 符号 逐个 移 人 一 个 后 进 先 出 
栈 中 , 边 移 人 边 分 析 ,一 旦 栈 顶 符号 串 形成 某 个 句 型 的 句柄 或 其 他 可 归 约 串 时 就 进行 归 约 ， 
归 约 的 结果 是 将 句柄 或 其 他 可 归 约 串 从 栈 顶 部 分 弹出 ,而 将 相应 的 非 终结 符 压 人 栈 中 。 重 
复 这 一 过 程 直 到 归 约 到 栈 中 只 剩 文法 的 开始 符号 时 则 为 分 析 成 功 , 也 就 确认 了 输入 串 是 文 
法 的 句子 。 

下 面 看 一 个 移 进 - 归 约 分 析 过 程 的 例子 , 它 是 按 句 柄 进行 归 约 ,因而 其 每 一 步 归 约 只 使 
用 一 个 产生 式 。 

例 5.1 设 文法 GLS] 为 

(1) SaAcBe 

(2) A>b 

(3) A>Ab 

(4) Bod 

对 输入 串 abbede # 进行 分 析 , 检 查 该 符号 串 是 否 是 GLS] 的 句子 。 

自 左 向 右 按 句柄 归 约 的 过 程 是 自 项 向 下 最 右 推导 的 逆 过 程 , 而 最 右 推 导 称 为 规范 推导 ， 
因而 这 一 归 约 过 程 也 称 为 规范 归 约 。 

容易 看 出 对 输入 串 abbede 的 最 右 推导 是 

S =AcBe 之 Acde =xAbcde =xbbcde 

由 此 可 以 构造 它 的 逆 过 程 , 即 归 约 过 程 。 

先 设 一 个 先进 后 出 的 符号 栈 , 并 把 句子 左 括号 “#” 放 入 栈 底 ,其 分 析 过 程 如 表 5. 1 
所 示 。 


表 5.1 用 移 进 - 归 约 对 输入 串 abbede# 的 分 析 过 程 


+ R 符号 栈 输入 符号 串 动 作 
(1) # abbcde # 移 进 
(2) #a bbcde # Bit 
(3) #ab bcde# 归 约 (A 一 b) 
(4) #aA bcde# Bit 
(5) #aAb cde# 归 约 (A 一 Ab) 
(6) #aA cde# 移 进 
(7) #aAc de# Bit 
(8) #aAcd e# 归 约 (B->d) 


外 ”优先 分 析 方 法 适用 范围 较 小 ,本 章 内 容 可 以 根据 课时 等 实际 情况 进行 取舍 。 
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续 表 


步 R 符号 栈 输入 符号 串 a 作 
(9) #aAcB e# 移 进 
(10) #aAcBe # 归 约 (S>aAcBe) 
(11) #5 # 接受 


上 述 分 析 过 程 也 可 看 成 自 底 向 上 构造 语法 树 的 过 程 ,每 步 归 约 都 是 构造 一 棵 子 树 ,最 后 当 
输入 串 结束 时 刚好 构造 出 整个 语法 树 , 图 5. 1 给 出 了 构造 过 程 ,可 与 表 中 相应 分 析 步 又 对 照 。 


A A B 
A A A 
a b a b b a b €E d e 
步骤 (3) 步骤 (3) 步骤 (8) 步骤 (10) 
(a) (b) (c) (d) 


图 5.1 自 底 向 上 构造 语法 树 的 过 程 


自 底 向 上 分 析 的 关键 问题 是 在 分 析 过 程 中 如 何 确定 句柄 或 其 他 可 归 约 串 ,也 就 是 说 如 
何 知 道 何 时 在 栈 顶 符号 串 中 已 形成 某 句 型 的 句柄 或 其 他 可 归 约 串 。 能 够 确定 句柄 或 其 他 可 
归 约 串 ,就 可 以 确定 何 时 可 以 进行 归 约 。 

本 章 和 第 6 章 分 别 介绍 两 类 自 底 向 上 分 析 技 术 , 优 先 分 析 与 LR 分 析 。 优 先 分 析 又 可 
分 为 简单 优先 分 析 和 算 符 优先 分 析 。 简 单 优先 分 析 以 及 LR 分 析 均 按 句 柄 进行 归 约 ,是 规 
范 归 约 。 算 符 优先 分 析 是 按照 其 他 可 归 约 串 进 行 归 约 ,不 是 规范 归 约 。 


5.1 自 底 向 上 优先 分 析 概 述 


简单 优先 分 析 法 的 基本 思想 是 对 一 个 文法 按 一 定 原则 求 出 该 文法 所 有 符号 ( 即 包括 终结 
符 和 非 终结 符 ) 之 间 的 优先 关系 ,按照 这 种 关系 确定 归 约 过 程 中 的 句柄 , 它 的 归 约 过 程 实际 上 
是 一 种 规范 归 约 。 而 算 符 优先 分 析 的 基本 思想 则 是 只 规定 算 符 之 间 的 优先 关系 ,也 就 是 只 考 
虑 终结 符 之 间 的 优先 关系 ,由 于 算 符 优先 分 析 不 考虑 非 终结 符 之 间 的 优先 关系 ,在 归 约 过 程 中 只 
要 找到 可 归 约 串 就 归 约 ,并 不 考虑 归 约 到 哪个 非 终结 符 名 ,因而 算 符 优先 归 约 不 是 规范 归 约 。 

简单 优先 分 析 法 准确 、 规 范 ,但 分 析 效 率 较 低 ,实际 使 用 价值 不 大 ,而 算 符 优先 分 析 法 则 
相反 , 它 虽 有 不 规范 问题 ,但 它 分 析 速 度 快 ,特别 是 适用 于 表达 式 的 分 析 , 因 此 在 实际 中 还 有 
一 些 应 用 。 


5.2 简单 优先 分 析 法 


简单 优先 分 析 法 是 按照 文法 符号 (终结 符 和 非 终结 符 ) 的 优先 关系 确定 句柄 的 ,因此 本 
节 先 给 出 任意 两 个 文法 符号 之 间 的 优先 关系 的 定义 ,再 介绍 优先 关系 表 的 构造 方法 和 简单 
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优先 分 析 步 又 。 
5.2.1 优先 关系 定义 


文法 中 任意 两 文法 符号 XAY: 

(1) 车 XX 和 YY 的 优先 性 相等 ,表示 为 X 二 Y。 

(2) 若 X 的 优先 性 比 Y 的 优先 性 大 ,表示 为 X>Y。 

(3) E X 的 优先 性 比 Y 的 优先 性 小 ,表示 为 X<Y. 

X 了 按 其 在 句 型 中 可 能 会 出 现 的 相 邻 关系 来 确定 它们 的 优先 关系 (注意 ,二 、 盖 、 反 和 
数学 中 的 = > ARTE) BORE 5. 3.1 节 中 说 明 ) 。 

(1) XX 三 Y 当 且 仅 当 G 中 存在 产生 式 规则 A 一 …XY…。 

(2) X<Y 当 且 仅 当 G PREFERI A>- XB, H B SY, 

G) X>Y 当 且 仅 当 G 中 存在 产生 式 规 则 A 一 …BD…, 且 B 己 …X 和 DD SY, 

例 5.2 若 有 文法 GLS]: 

S>bAb 

A>(Bla 

B—>Aa) 

REELED, D>, < KR E, h XA Yo E RR GER FS E HE EKR 
如 下 : 

(1) 求 三 关系 。 由 S+bAb,A>(B,B>Aa) 44 b =A,A 三 b,( 二 B,A 三 ava =), 


(2) R<. 由 S>bAb, A A S (BLA Sa WB: baba, 
th A>(B AB 全 (B…,B 全 ao,B SA fb: (<<a, (<A, 
(3) 求 之 关系 。 由 S>bAb HA S+).A SBA Sa Wi: )>b.a>b.B>b, 
由 B>Aa) HA 5+), A Sa.A 全 …B 可 得 : )>a,a >a, B>a, 
上 述 关 系 也 可 以 用 语法 树 的 结构 表示 ,如 图 5.2 所 示 。 
S S S S 
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S “2 
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图 5.2 语法 树 结构 
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由 语法 树 层次 可 看 出 , 当 (B 为 某 句 型 的 句柄 时 ,它们 将 同时 归 约 ,同样 240 和 Aa) 也 是 
如 此 。 

也 可 看 出 , 当 0C 和 ba 出 现在 某 一 句 型 中 时 , 则 (和 a 在 句柄 中 时 2 不 在 句柄 中 ,因此 必 
BAM a 先 归 约 ,所 以 65 的 优先 级 比 ( 和 a 小 ,同样 可 以 看 出 , 当 ((、(a 或 (A 出 现在 某 句 型 中 
时 ,右边 的 (a 或 A 出 现在 句柄 中 ,而 左边 的 (不 被 包含 在 句柄 中 ,所 以 左边 (的 优先 性 小 于 
右边 相 邻 的 (\e 或 A。 

对 于 大 于 关系 也 可 由 树 中 看 出 , 当 ab 或 aa 出 现在 某 一 句 型 中 时 ,左边 的 a 在 句柄 中 ， 
右边 的 a 和 2 不 可 能 在 句柄 中 ,所 以 有 a 之 6,a 之 a 的 关系 存在 。 同样 ,6 或 )a 出 现在 某 一 
句 型 中 时 ,) 在 句柄 中 而 aw 不 在 句柄 中 ,因此 ) 先 归 约 , 则 有 ) 之 a,) 交 6b 的 关系 。 当 然 ,对 含 
有 Bb 和 Ba 的 名 型 ,B 先 归 约 , 则 有 B> + b,B>a 的 关系 。 

为 了 简洁 明了 ,也 可 以 把 文法 符号 之 间 的 关系 用 矩阵 表示 , 称 作 优先 关系 矩阵 。 

例 5. 2 文法 的 简单 优先 关系 矩阵 可 用 表 5.2 表示 。 

表 5.2 例 5.2 文 法 的 简单 优先 关系 矩阵 


5 b A ( B a ) # 
5 > 
b = < < > 
A = = 
( < < = < 
B > > 
a > > = 
) > > 
# < < = 


在 表 5. 2 所 示 的 简单 优先 关系 矩阵 中 可 以 看 出 : 

矩阵 中 元 素 要 么 只 有 一 种 关系 ,要 么 为 空 ,元 素 为 空 时 表示 该 文法 的 任何 句 型 中 不 会 出 
现 该 符号 对 的 相 邻 关 系 , 在 分 析 过 程 中 若 遇 到 这 种 相 邻 关系 出 现 , 则 为 出 错 ,也 就 可 以 肯定 
输入 符号 串 不 是 该 文法 的 句子 。 

# 用 来 表示 句子 括号 ,# 的 优先 性 小 于 所 有 符号 ,所 有 符号 的 优先 性 大 于 # ,当然 这 里 
只 是 对 与 # 号 有 相 邻 关 系 的 文法 符号 而 言 。 
5.2.2 简单 优先 文法 的 定义 

若 一 个 文法 是 简单 优先 文法 ,必须 满足 以 下 条 件 : 

(1) 在 文法 符号 集 V 中 ,任意 两 个 符号 之 间 最 多 只 有 一 种 优先 关系 成 立 。 

(2) 在 文法 中 ,任意 两 个 产生 式 没 有 相同 的 右 部 。 

其 中 第 一 条 必须 满足 是 显然 的 ,对 第 二 条 来 说 , 若 不 满足 则 会 出 现 归 约 不 唯一 。 
5.2.3 简单 优先 分 析 法 的 操作 步骤 

由 简单 优先 分 析 法 的 基本 思想 可 设计 如 下 优先 分 析 算法 。 首 先 根据 已 知 优先 文法 构造 


相应 优先 关系 矩阵 ,并 将 文法 的 产生 式 保 存 , 设 置 符号 栈 S, 算 法 步骤 如 下 : 
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(1) 将 输入 符号 串 a1as…as# 依 次 逐个 存 人 符号 栈 S 中 ,直到 遇 到 栈 顶 符号 a 的 优先 
性 大 于 下 一 个 待 输入 符号 wj 时 为 止 。 

(2) 栈 顶 当前 符号 w 为 句柄 尾 ,由 此 向 左 在 栈 中 找 句柄 的 头 符号 a , 即 找到 ay <a, Wk 

(3) 由 句柄 wx…ai 在 文法 的 产生 式 中 查找 右 部 为 ae…ai 的 产生 式 。 若 找到 , 则 用 相应 
的 左 部 代替 句柄 ; 若 找 不 到 , 则 为 出 错 , 这 时 可 断定 输入 串 不 是 该 文法 的 句子 。 

(4) 重复 上 述 (1)、(2)、(3) 步 骤 直 到 归 约 完 输 入 符号 串 , 栈 中 只 剩 文法 的 开始 符号 
为 止 。 


5.3” 算 符 优先 分 析 法 


算 符 优先 分 析 法 只 考虑 终结 符 之 间 的 优先 关系 。 例 如 , 若 有 文法 G: 


(1) E>E+E 

(2) E>E*E 

(3) E>i 

对 输入 串讲 十 i。 x* i 的 归 约 过 程 可 表示 为 表 5. 3。 

表 5.3 对 输入 捉 记 十 i i MAAR 

步 又 R S 当前 输入 符 输入 串 剩余 部 分 动 作 
a) # i +i; * i; # Bit 
(2) Fi, + i, * i; # 归 约 (3) 
(3) #E + iz * is # Bit 
(4) #E+ i *is# Bit 
(5) #E+i: * i, # 归 约 (3) 
(6) #E+E * i # Bit 
(7) #E+E* is # 移 进 
(8) #E+E* i; # 归 约 (3) 
(9) H#E+E*E # 归 约 (2) 
(10) #E+E # 归 约 (1) 
a1) #E # 接受 


K 5. 3 中 动作 规约 后 的 数字 表示 施用 的 产生 式 。 在 分 析 到 第 (6) 步 时 , 栈 顶 的 符号 串 为 
下 十 已 。 若 只 从 移 进 - 归 约 的 角度 讲 , 栈 顶 已 出 现 了 产生 式 (1) 的 右 部 ,可 以 进行 归 约 ;但 从 通 
常 四 则 运算 的 习惯 来 看 ,应 先 乘 后 加 ,所 以 应 移 进 。 这 就 提出 了 算 符 优先 的 问题 。 


5.3.1 直观 算 符 优先 分 析 法 


在 算术 表达 式 求 值 过 程 中 ,运算 次 序 是 先 乘除 后 加 减 , 即 乘除 运算 的 优先 级 高 于 加 减 运 
算 的 优先 级 ,乘除 为 同一 优先 级 但 运算 符 在 前 边 的 先 做 ,这 称 为 左 结合 ,加 减 运 算 也 是 如 此 ， 
这 也 说 明了 运算 的 次 序 只 与 运算 符 有 关 , 而 与 运算 对 象 无 关 , 因 而 直观 算 符 优先 分 析 法 的 关 
键 是 : 对 一 个 给 定 文法 G, 人 为 地 规定 其 算 符 的 优先 顺序 , 即 给 出 优先 级 别 和 同一 个 级 别 中 
的 结合 性 质 , 算 符 间 的 优先 关系 表示 与 简单 优先 关系 的 表示 类 似 , 其 规定 如 下 : 
» 107 > 


a<b 表示 a 的 优先 性 低 于 2 。 

a =b 表示 a 的 优先 性 等 于 2 , 即 与 2 相同。 

a>b 表示 a 的 优先 性 高 于 0 。 

但 必须 注意 ,这 3 个 关系 和 数学 中 的 二 二 二 是 不 同 的 ,它们 是 有 序 的 ,也 就 是 车 有 
a>b, REA b<a;a =b 成 立 , 不 一 定 有 二 a。 例 如 ,通常 表达 式 中 运算 符 的 优先 关系 
有 十 交 一 ,但 没有 一 过 十 ,有 (二 ) ,但 没有 ) 二 (。 

下 面 给 出 一 个 表达 式 的 二 义 性 文法 : 

E>E+E|E—E|E* E|E/E|E*E\(E)|i 

运算 对 象 的 终结 符 i 优先 级 最 高 。 其 他 运算 符 按 计算 顺序 规定 如 下 优先 级 和 结合 性 : 

(1)^ 优 先 级 最 高 ,遵循 右 结合 。 相 当 于 个 过 ^。 

例如 ,2^3^2==249 二 512。 也 就 是 说 该 运算 符 在 归 约 时 为 从 右 向 左 归 约 , 即 i A iz A is 
P is A i EH. 

(2) * 和 /的 优先 级 低 于 个 ,服从 左 结 合 。 相 当 于 * > x, D>/,/>/,/>*, 

(3) 十 和 一 优先 级 最 低 ,服从 左 结合 。 相 当 于 十 宛 十 ,十 交 一 ,一 交 十 ,一 交 

(4) 对 (和 ) 规 定 , 括 号 的 优先 性 大 于 括号 外 的 运算 符 , 小 于 括号 内 的 运算 符 ,内 括号 的 
优先 性 大 于 外 括号 。 对 于 句子 括号 # 规 定 , 与 它 相 邻 的 任何 运算 符 的 优先 性 都 比 它 大 。 

综 上 所 述 ,可 将 表达 式 运算 符 的 优先 关系 总 结 为 表 5. 4。 

表 5.4 算 符 优先 关系 表 


十 = * / t ( ) i # 
+ > > < < < < > < > 
一 > > < < < < > < > 
* > > > > < < > < > 
/ > > > > < < > < > 
4 > > > > < < > < > 
( < < < < < < = < 
) > > > > > > > 
i > > > > > > > 
# < < < < < < < = 


上 面 所 给 的 表达 式 文法 虽然 是 二 义 性 的 ,但 人 为 直观 地 给 出 运算 符 之 间 的 优先 关系 且 
这 种 优先 关系 是 唯一 的 ,有 了 这 个 优先 关系 表 , 对 前 面 表达 式 的 输入 串 i, i, * is 归 约 过 程 
就 是 唯一 确定 的 了 ,也 就 是 说 ,在 表 5. 3 分 析 到 第 (6) 步 时 , 栈 中 出 现 了 #E 十 E, 可 归 约 为 
,但 当前 输入 符 为 * ,而 十 二 * ,这 时 句柄 尾 还 没有 找到 ,所 以 应 移 进 。 这 里 简单 介绍 直观 
算 符 优先 分 析 法 ,只 是 为 了 帮助 读者 理解 算 符 优先 分 析 法 的 概念 ,5. 3. 2 节 将 介绍 对 任意 给 
定 的 一 个 文法 如 何 计算 算 符 之 间 的 优先 关系 。 


5.3.2 算 符 优先 文法 的 定义 


首先 给 出 算 符 文法 和 算 符 优先 文法 的 定义 。 
定义 5.1 设 有 文法 G, 如 果 G 中 没有 形 如 A 一 …BC… 的 产生 式 , 其 中 B 和 C 为 非 终 
» 108 > 


结 符 , 则 称 G 为 算 符 文 法 (operator grammar) ,也 称 OG 文法 。 

例如 ,对 于 表达 式 的 二 义 性 文法 

E>E+E|E—E|E* E|E/E|E* El|(E)|i 

其 中 任何 一 个 产生 式 中 都 不 包含 两 个 非 终 结 符 相 邻 的 情况 ,因此 该 文法 是 算 符 文法 。 算 符 
文法 有 如 下 两 个 性 质 。 

性 质 1 在 算 符 文法 中 任何 句 型 都 不 包含 两 个 相 邻 的 非 终结 符 。 

iE: 用 归纳 法 。 

设 y 是 句 型 ,S Sy, 

S=w 0, > ,1 0, =Y 

推导 长 度 为 n, 归 纳 起 点 n=1 H}, S= w= = 7. BS sy 必 存 在 产生 式 Sy. i EE 
文法 的 定义 ,文法 的 产生 式 中 无 相 邻 的 非 终结 符 ,显然 满足 性 质 1 。 

假设 "二 1,o-: 满 足 性 质 1 。 

车 on =aAd,A 为 非 终结 符 。 

由 假设 ,a 的 尾 符号 和 6 的 首 符号 都 不 可 能 是 非 终结 符 ,否则 与 假设 矛盾 。 

又 若 AB 是 文法 的 产生 式 , 则 有 

Wn =W, = aPO=Y 

而 AB FE SCH HY Dat AE SKB AR A AB AE AT JT A aB 也 不 含 两 个 相 邻 的 
非 终结 符 。 满 足 性 质 1, 证 毕 。 

性 质 2 如 果 A0( 或 44A) 出 现在 算 符 文法 的 句 型 yY 中 ,其 中 AEVN,OEVr, 则 7y 中 任何 
含 此 2 的 短语 必 含 有 A 。 

证 明 : 用 反 证 法 。 

因为 由 算 符 文法 的 性 质 1 知 可 有 : 

S S Y=abAß 


若 存 在 B Sab Xit b AA REIA WAT S S BAB, 这 样 在 句 型 BAR 中 ,存在 相 
邻 的 非 终 结 符 B 和 A ,所 以 与 性 质 1 矛盾 ,证 毕 。 注 意 : 含 5 的 短语 必 仿 A, 含 A 的 短语 不 
ER b 

定义 5.2 设 G 是 一 个 不 含 e 产生 式 的 算 符 文法 ,a 和 2 是 任意 两 个 终结 符 ,A、B、C 是 
非 终 结 符 , 算 符 优先 关系 三 、 达 、 世 定义 如 下 : 

(1) a =b 当 且 仅 当 G 中 含有 形 如 A 一 …ab… 或 A 一 …aBb… 的 产生 式 。 

(2) a<b 当 且 仅 当 G 中 含有 形 如 A 一 …aB… 的 产生 式 , 且 B Sb BS Cb…。 


(3) a>b 当 且 仅 当 G 中 含有 形 如 A 一 …Bb… 的 产生 式 , 且 BS a R BS aC. 


以 上 3 种 关系 也 可 由 下 列 语法 树 来 说 明 : 
(1) a =b 则 存在 如 图 5. 3(a) 所 示 的 语法 子 树 。 
Hp OS Ae RH BRO a.b 在 同一 句柄 中 同时 归 约 ,所 以 优先 级 相同 。 
(2) a<b 则 存在 如 图 5.3(b) 所 示 的 语法 子 树 。 
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其 中 6 为 e 或 为 C。a 必 不 在 同一 句柄 中 .6 先 归 约 ,所 以 a 的 优先 级 低 于 2 。 
(3) a>b 则 存在 如 图 5. 3(c) 所 示 的 语法 子 树 。 


PN ia we 


As 


(a) a=b (b) ab (c)a>b 
图 5.3 由 语法 树 结构 决定 优先 性 


图 中 8 He 或 为 C,ab 不 在 同一 句柄 中 ,a 先 归 约 ,所 以 a 的 优先 性 大 于 2 。 

下 面 给 出 算 符 优先 文法 的 定义 。 

定义 5.3 设 有 一 个 不 含 e 产生 式 的 算 符 文法 G, 如 果 任 一 终结 符 对 (a,5) 之 间 至 多 只 
H< DSM 种 关系 中 的 一 种 成 立 , 则 称 G 是 一 个 算 符 优先 文法 (operator precedence 
grammar) , 即 OPG 文法 。 

由 定义 5.2 和 定义 5. 3 很 容易 证 明 前 面 给 的 表达 式 的 二 义 性 文法 

E>E+E|E—E|E*E|E/E|E*E|(E)|i 

不 是 算 符 优先 文法 。 

因为 对 算 符 十 、x 来 说 ,由 EE 十 E ME SEE, H+H» ,用 语法 子 树 表示 如 
图 5.4(a) 所 示 。 

又 可 由 E>E* EME SE+E G+> « ,由 语法 
子 树 表示 如 图 5.4(b) 所 示 。 E+E E * 

因为 十 、x 的 优先 关系 不 唯一 ,所 以 该 表达 式 的 文 IN JAIN 
法 仅 是 算 符 文法 而 不 是 算 符 优先 文法 。 这 里 必须 再 次 on 
强调 ,两 个 终结 符 之 间 的 优先 关系 是 有 序 的 ,允许 有 O 人 
a>b.b<a 同时 存在 ,而 不 允许 有 a>ba<ba 二 53 ”图 5.4 二 义 性 文法 的 语法 树 
种 情况 中 的 两 种 同时 存在 。 


5.3.3 算 符 优先 关系 表 的 构造 


由 定义 5.2, 可 按 如 下 算法 计算 出 给 定 文法 中 任 一 终结 符 对 (ae,0) 之 间 的 优先 关系 , 首 
先 定义 如 下 两 个 集合 : 
FIRSTVT(B)={b|B 5b B 25 Ch-+} ,其 中 … 表 示 V* 中 的 符号 串 。 


LASTVT(B)=({a|B 5 -+a a B S-aC} 


3 种 优先 关系 的 计算 如 下 : 
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《1》 =KR. 
可 直接 查看 产生 式 的 右 部 ,对 如 下 形式 的 产生 式 
A—>-……ab.…A—-……aBb.… 


WA a =b Ri. 
(2) 过 关系 。 
求 出 每 个 非 终结 符 B 的 FIRSTVT(B) ,观察 如 下 形式 的 产生 式 
A—>:……aB:… 
对 每 一 DE FIRSTVT(B),. A a<b 成 立 。 
G) 之 关系 。 
计算 每 个 非 终 结 符 B II LAST VT(B) ,观察 如 下 形式 的 产生 式 
A> Bb 


对 每 一 a€ELASTVT(B), 有 a 之 5b 成立。 
现在 可 用 上 述 算法 计算 下 例 表 达 式 文法 的 算 符 优先 关系 。 
例 5.3 表达 式 文法 如 下 : 
(0) EX >+#E# 
(1) E>E+T 
(2) E>T 
(3) T>T*F 
(4) T>F 
(5) F>P4F|P 
(6) P>(E) 
(7) P>i 
计算 优先 关系 步骤 如 下 : 
(1) 二 关系 。 
由 产生 式 (0) 和 (6) 可 得 
#=# (=) 
HY R<AM> KAR AICI AEA GF FIRST VT 集合 和 LASTVT 集合 。 
FIRSTVT(E’)={ #} 
FIRSTVT(E)={+, *, Å, Gi} 
FIRSTVT(T)={* 4G i} 
FIRSTVT(F)={ 4 .(.i} 
FIRSTVT(P)={(.i} 
LASTVT(E’)={ #} 
LASTVT(E)={+,*, Å ,),i} 
LASTVT(T)={* ,1 ,),i) 
LASTVT(F)={¢ ,),i} 
LASTVT(P)={),i} 
逐条 扫描 产生 式 , 寻 找 终结 符 在 前 , 非 终结 符 在 后 的 相 邻 符号 对 ,以 及 非 终结 符 在 前 , 终 
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结 符 在 后 的 相 邻 符号 对 , 即 寻找 如 下 形式 的 产生 式 : 
A 一 …aB… 和 A—>- Bb 

(2) 去 关系 。 列 出 所 给 表达 式 文法 中 终结 符 在 前 , 非 终结 符 在 后 的 所 有 相 邻 符号 对 ,并 
确定 相关 算 符 的 去 关系 。 

#E WA #< FIRSTVTCE) 。 

+T WA < FIRSTVT(T), 

x 正则 有 * < FIRSTVT(P). 

A FWA * < FIRSTVT(P). 

CE WA (< FIRSTVTCE) 。 

(3) SXR. WMH AUS SE PARA AG FF HEB, RG FF LE Jin AB FE SMT IE 
Wh i HE EF I > KR 

E# W4 LASTVT(E) >#. 

E+ 十 则 有 LASTVT(E) >+. 

Tx 则 有 LASTVT(T) >*, 

PAWA LASTVTCP) >Å. 

E) 则 有 LASTVT(E) >). 

从 而 可 以 构造 优先 关系 矩阵 ,如 表 5.5 所 示 。 

RSS 表达 式 文法 算 符 优先 关系 表 


a * 4 i ( ) # 
+ > < < < < > > 
* > > < < < > > 
+ > > < < < > > 
i > > > > > 
( < < < < < = 
) > > > > > 
# < < < < < = 


对 FIRST VT 集 的 构造 可 以 给 出 一 个 算法 ,这 个 算法 基于 下 面 两 条 规则 : 
(1) 车 有 产生 式 A>a… 或 A 一 Ba…, 则 aE€ FIRSTVT(A) ,其 中 A、B 为 非 终结 符 ,a 为 


(2) 车 aEFIRSTVT(B) 且 有 产生 式 A 一 B…, 则 有 a€EFIRSTVT(A)。 

为 了 计算 方便 ,建立 一 个 布尔 数组 FE on] Gn 为 非 终结 符 个 数 ,n 为 终结 符 个 数 ) 和 一 
个 后 进 先 出 栈 STACK。 将 所 有 的 非 终 结 符 排 序 ,用 is 表 示 非 终结 符 A 的 序号 ,再 将 所 有 的 
终结 符 排序 ,用 j,。 表 示 终 结 符 a 的 序号 。 算 法 的 目的 是 要 使 数组 每 一 个 元 素 最 终 取 值 满足 : 
Flia ,jsj] 的 值 为 真 , 当 且 仅 当 a€E FIRSTVT(A)。 至 此 ,显然 所 有 非 终 结 符 的 FIRSTVT 集 
已 完全 确定 。 

步骤 如 下 : 

首先 按 规则 (1) 对 每 个 数组 元 素 赋 初 值 。 观 察 这 些 初 值 ,车 F[ia ,jj 的 值 是 真 , 则 将 
(A,a) 推 入 栈 中 ,直至 对 所 有 数组 元 素 的 初 值 都 按 此 处 理 完 。 

然后 对 栈 做 以 下 运算 。 
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将 栈 顶 项 弹出 , 设 为 (B,a) ,再 用 规则 (2) 检 查 所 有 产生 式 , 若 有 形 为 A 一 B… 的 产生 式 ， 
而 FL ig ,jj 的 值 是 假 , 则 令 其 变 为 真 , 且 将 (A,a) 推 进 栈 ,如 此 重复 直到 栈 弹 空 为 止 。 具 体 
算法 可 用 程序 描述 如 下 : 


PROCEDURE INSERT(A,a); 
IF NOT F [i4 ,j,] THEN 
BEGIN 
F[ia + ja] :=TRUE 
PUSH(A,a) ONTO STACK 
END 


此 过 程 用 于 当 uaEFIRSTVT(A) 时 置 F[is,j。] 为 真 ,并 将 符号 对 (A,a) 下 奈 到 栈 中 。 
其 主 程序 如 下 : 


BEGIN (MAIN) 
FORi 从 1 到 m,j 从 1 到 nn 
DO F[ia ,js] :=FALSE 
FOR 每 个 形 如 A-~a… 或 A 一 Ba… 的 产生 式 
DO INSERT(A,a) 
WHILE STACK 非 空 DO 
BEGIN 
把 STACK 的 顶 项 记 为 (B,a) ,弹出 去 
FOR 每 个 形 如 A 一 B… 的 产生 式 DO 
INSERT(A,a) 
END 
END (MAIN) 


例如 ,对 例 5. 3 中 的 表达 式 文法 求 每 个 非 终结 符 的 FIRSTVT(B) ,第 1 次 扫描 产生 式 
后 , 栈 STACK 的 初 值 为 
(6) (P,i) 
(5) (P.O 
(4) (F, A) 
(3) (T, *) 
(2) (E.+) 
(1) (BE, #) 
由 产生 式 FP,T>F,E 一 T, 栈 项 (6) 的 内 容 逐 次 改变 为 
(F,i),(T,i),(E,i) 
再 无 右 部 以 巨 开始 的 产生 式 , 所 以 (E,i) 弹 出 后 无 进 栈 项 ,这 时 栈 顶 (5) 为 (P,() ,同样 由 产 
生 式 FP,T>F,E 一 本 ,当前 栈 顶 (5) 的 变化 依次 为 
(PO TD ONE 
(E,() 弹 出 后 无 进 栈 项 ,此 时 当前 栈 顶 (4) 为 (F, 人), 由 产生 式 T>F,E 一 T, 当 前 栈 顶 
(4) 的 变化 依次 为 
(T, 4),CE, 4) 
CE, 人) 弹出 后 无 进 栈 项 ,当前 栈 顶 项 (3) 为 (T, * ) ,由 产生 式 E>T, 栈 顶 (3) 变 为 
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(Œ, *) 
以 下 逐次 弹出 栈 顶 元 素 后 ,都 再 无 进 栈 项 ,直至 栈 空 。 
由 算法 可 知 , 凡 在 栈 中 出 现 过 的 非 终结 符 和 终结 符 对 ,相应 数组 元 素 的 布尔 值 为 真 ,在 


K 5. 6 所 示 的 数组 中 用 1 表示 。 
表 5.6 布尔 数组 的 值 

re x 4 i C ) # 
E 1 
E J 1 1 1 1 
E 1 i 1 1 
F i 1 1 
P 3 i 


因而 由 数组 布尔 元 素 值得 知 ,文法 中 每 个 非 终 结 符 的 FIRSTVT(A) 集 合 为 

FIRSTVT(E’)={ #} 

FIRSTVT(E)={+,%*,45i6( 

FIRSTVT(T)={*. 48,0) 

FIRSTVT(F)={ Å ,i,(} 

FIRSTVT(P)={i,(} 

与 直接 由 定义 计算 的 结果 相同 。 此 算法 也 可 以 由 简单 关系 图 形 求 得 ,其 图 形 的 构造 方 
法 如 下 : 

CL) 图 中 的 结 点 为 某 个 非 终结 符 的 FIRST VT 集 或 终结 符 。 


点 外 用 箭 弧 连接 。 
(3) 对 每 一 形 如 A 一 B… 的 产生 式 , 则 对 应 (FIRSTVT(E) ) FIRSTVT(E) ) 


图 中 由 FIRSTVT(A) 结 点 到 FIRSTVT(B) 结 
点 用 箭 弧 连接 。 

(4) 若 某 一 非 终结 符 A 的 FIRSTVT(A) 经 
箭 弧 有 路 径 能 到 达 某 终结 符 结 点 as 则 有 
a€FIRSTVT(A). 

例如 ,上 述 表 达 式 文法 的 FIRSTVT(A) 集 
合用 关系 图 法 计算 的 结果 如 图 5.5 所 示 。 

显然 所 求 结果 与 前 面 两 种 方法 计算 的 结果 图 5.5 关系 图 形 法 计算 FIRSTVT 集合 
相同 。 

用 类 似 的 方法 可 求 得 每 个 非 终结 符 的 LASTVT(A) 的 集合 ,读者 可 以 自己 练习 。 

有 了 文法 中 的 每 个 非 终 结 符 的 FIRSTVT A LASTVT 集 , 就 可 以 用 如 下 算法 最 后 
构造 文法 的 优先 关系 表 : 

FOR 每 个 产生 式 A>X, X20 X, DO 

FOR i?=1 TO n—1 DO 
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BEGIN 
IF X; 和 Xi+1 均 为 终结 符 
THEN # X:= Xi; 
IF i<n 一 2 H X 和 Xi+z 都 为 终结 符 , 但 Xi.) HARB ATS 
THEN # X;=Xis2; 
IF X., 为 终结 符 而 Xi; ;为 非 终 结 符 
THEN FOR FIRSTVT(X;;1) 中 的 每 个 b DO H X; <b 
IF X 为 非 终结 符 而 Xi+; 为 终结 符 


THEN FOR LASTVT(X;) 中 的 每 个 a。DO 置 a > Xia 
END 


以 上 算法 对 任 给 算 符 文法 G 可 自动 构造 其 算 符 优先 关系 表 , 并 可 判断 文法 G 是 否 为 算 
符 优 先 文法 。 


5.3.4 算 符 优先 分 析 算 法 


5.3.3 节 介 绍 了 如 何 对 已 给 定 的 文法 构造 算 符 优先 关系 表 , 有 了 算 符 优先 关系 表 并 满 
足 算 符 优先 文法 时 ,就 可 以 对 任意 给 定 的 符号 串 进行 归 约 分 析 , 进 而 判定 输入 串 是 否 为 该 文 
法 的 句子 。 然 而 , 算 符 优先 分 析 法 的 归 约 过 程 与 规范 归 约 是 不 同 的 。 
1. 算 符 优先 分 析 句 型 的 性 质 
由 5.3.2 节 中 给 出 的 算 符 文法 的 性 质 , 可 以 知道 算 符 文法 的 任何 一 个 句 型 应 为 如 下 
形式 : 
# Nia Noate Nna Nt # 
其 中 N;(1<i<n 十 1) 为 非 终 结 符 或 空 ,a;(1<i<n) 为 终结 符 。 
若 有 名 型 …Niai…NiaNi+i…, 当 w…Nia 属 于 句柄 时 , 则 Ni 和 Ni 也 在 句柄 中 ,这 
是 由 于 算 符 文 法 的 任何 名 型 中 均 无 两 个 相 邻 的 非 终结 符 , 且 终结 符 和 非 终 结 符 相 邻 时 , 含 终 
结 符 的 句柄 必 会 相 邻 的 非 终 结 符 ( 见 5. 3. 2 节 中 的 性 质 2) 。 
该 句柄 中 终结 符 之 间 的 关系 为 
Qj) Sa; 
ai =a = Eaj- =a; 
aj>aj+ 
这 是 因为 算 符 优先 文法 有 如 下 性 质 , 即 ,如 果 aN6( 或 a5) 出 现在 句 型 中 , 则 a 和 6b 之 
间 有 且 只 有 一 种 优先 关系 , 即 
E a<b WE r PURA b 而 不 含 a 的 短语 存在 。 
E a>b WE r 中 必 含 有 a 而 不 含 6 的 短语 存在 。 
Ha =b, WE r PRA a 的 短语 必 含 有 2 ,反之 亦 然 。 
读者 可 根据 算 符 优 先 文法 的 定义 证 明 此 性 质 。 
由 此 可 见 , 算 符 优先 文法 在 归 约 过 程 中 只 考虑 终结 符 之 间 的 优先 关系 来 确定 句柄 ,而 与 
非 终 结 符 无 关 , 只 需 把 当前 句柄 归 约 为 某 一 非 终 结 符 ,不必 知道 该 非 终结 符 的 名 字 是 什么 ， 
这 样 也 就 去 掉 了 单 非 终结 符 的 归 约 ,因为 若 只 有 一 个 非 终 结 符 时 ,无 法 与 句 型 中 该 非 终结 符 
的 左 部 及 右 部 的 串 比较 优先 关系 ,也 就 无 法 确定 该 非 终结 符 为 句柄 。 例 如 , 若 对 例 5. 3 中 的 
表达 式 文 法 有 一 个 输入 串 i 十 i# ,其 规范 归 约 过 程 如 表 5.7 所 示 。 
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表 5.7 对 输入 串 i 十 i FHRBAATE 


步 又 栈 剩余 输入 串 名 ff 归 约 用 产生 式 
(1) # iti # 
(2) #i +i # i P>i 
(3) #P 十 i # P F>P 
(4) #F +i # F T>F 
(5) #T +i # f E>T 
(6) #E +i # 
(7) #E+ i# 
(8) #E+i # i P>i 
(9) +E+P + P F>P 
(10) #E+F + F T>F 
ap #E+T + E+T E>E+T 
(12) #E # 接受 


而 用 算 符 优先 归 约 时 步骤 如 表 5. 8 所 示 。 
表 5.8 对 输入 串 i 十 i 厅 的 算 符 优先 归 约 过 程 


步 ”又 栈 优先 关系 当前 符号 剩余 输入 串 移 进 或 归 约 
a # < i +i# Bit 
(2) i > + i# 归 约 
(3) #F < + i# 移 进 
(4) #F+ < i # 移 进 
(5) #F+i > # 归 约 
(6) #F+F 2 # 归 约 
(7) #F = # 接受 
由 此 可 以 看 到 ,用 算 符 优先 归 约 时 ,在 第 (3) 步 和 第 (6) 步 栈 顶 的 下 都 不 能 当做 句柄 归 
约 为 工 , 因 为 在 句 型 # 下 十 i# 中 ,只 有 划 云 十 ,所 以 下 构 不 成 句柄 ,在 句 型 # 下 十 下 # 中 ,只 


有 # 到 十 和 十 之 # ,因而 右边 的 下 也 不 能 构成 句柄 。 至 于 在 规范 归 约 的 过 程 中 下 能 构成 句 


柄 的 原因 ,可 由 简单 优先 文法 或 后 面 将 要 介绍 的 LR 类 分 析 法 看 出 。 


其 短语 有 : 


为 了 解决 在 算 符 优先 分 析 过 程 中 如 何 寻 找 句柄 的 问题 ,现在 引进 最 左 素 短语 的 概念 。 
2. 最 左 素 短语 


定义 5.4 设 有 文法 GLS], 其 句 型 的 素 短语 是 一 个 短语 , 它 至 少 包含 一 个 终结 符 ,并 除 


自身 外 不 包含 其 他 素 短 语 ,最 左边 的 素 短 语 称 最 左 素 短语 。 E 
例如 , 若 表 达 式 文法 CLEA: JIN 
E>E+T|T E AE 
TT *FIF JIN | 

E +T F 

F>P į FIP | ZINI 
P>(E)|i T T * FP 
| 


现 有 句 型 #T 十 Tx 下 十 i# , 它 的 语法 树 如 图 5.6 所 示 。 


图 5.6 WA T+T* Fti 
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THT * F+i 相对 于 非 终 结 符 E 的 短语 

T 十 了 x 下 相对 于 非 终 结 符 E 的 短语 

全 相对 于 非 终 结 符 E 的 短语 

Tx 下 相对 于 非 终 结 符 T 的 短语 

i 相对 于 非 终结 符 P、F、T 的 短语 

而 由 定义 5.4 知 ,i 和 了 x 下 为 素 短语 ,Tx* 下 为 最 左 素 短语 ,也 为 算 符 优先 分 析 的 句 
柄 。 由 本 节 前 面 关于 算 符 优先 分 析 名 型 的 性 质 可 知 ,一 个 算 符 优先 文法 的 最 左 素 短语 
NiaiNinaiti……aNjt1 满 足 如 下 条 件 : 

aiz © a; Tai tt Eaj djy 

上 述 句 型 # 工 十 工 * 下 十 i# 写 成 算 符 分 析 过 程 的 形式 为 

# Nia, Nza: Naza, # ,其 中 a = 十 ,as = * ,as 一 十 ,ak 一 i。 

a, <a,(+< *) 


a2 >a3(* >+) AN 


由 此 NsazN; 即 Tx 下 是 最 左 素 短语 。 在 实际 分 析 过 程 中 不 必 N +N 

考虑 非 终结 符 名 是 还 是 下 或 是 EE, 而 只 要 知道 是 非 终结 符 即 可 , 具 AIN | 

体 在 表达 式 文法 中 都 为 运算 对 象 。 上 述 名 型 #T 十 T* P+ HAYA SN 

约 过 程 由 于 去 掉 了 单 非 终结 符 E>T,T>F,F>P 的 归 约 ,所 以 得 不 N O+ N 

到 真正 的 语法 树 ,而 只 是 构造 出 语法 树 的 框架 ,如 图 5. 7 所 示 。 Bat EE aa 
语法 树 的 框架 


3. 算 符 优先 分 析 归 约 过 程 算法 
自 底 向 上 的 算 符 优先 分 析 法 也 是 自 左 向 右 归 约 , 它 不 是 规范 归 约 。 规 范 归 约 的 关键 问 
题 是 如 何 寻找 当前 名 型 的 句柄 , 归 约 结果 为 用 右 部 与 句柄 相同 的 产生 式 的 左 部 非 终结 符 代 
替 句 柄 ;而 算 符 优先 分 析 归 约 的 关键 是 如 何 找 最 左 素 短语 ,而 最 左 素 短语 Nias N pa ai e 
Ni+i 应 满足 
Qi <a; 
Qj aj4, =" =a; 
aj> aj 
在 文法 的 产生 式 中 存在 右 部 符号 串 的 符号 个 数 与 该 素 短语 的 符号 个 数 相等 , 非 终结 符 
号 对 应 Ni(k 二 i,2,…,j 十 1) ,不 管 其 符号 名 是 什么 。 终 结 符 对 应 a;,… ,aj ,其 符号 表示 要 
与 实际 的 终结 符 相 一 致 才 有 可 能 形成 素 短 语 。 由 此 ,在 分 析 过 程 中 可 以 设 园 一 个 符号 栈 S， 
用 以 寄存 归 约 或 待 形成 最 左 素 短语 的 符号 串 , 用 一 个 工作 单元 a 存放 当前 读 入 的 终结 符号 ， 
归 约 成 功 的 标志 是 : 当 读 到 句子 结束 符 # 时 ,S 栈 中 只 剩 #N, 即 只 剩 句 子 最 左 括号 # 和 一 
个 非 终结 符 N。 下 面 给 出 分 析 过 程 的 示意 图 ,如 图 5. 8 所 示 。 
在 归 约 时 要 检查 是 否 有 对 应 产生 式 的 右 部 与 SC 十 1]…SLA] 形 式 相 符 ( 忽 略 非 终 结 符 
名 的 不 同 ) , 若 有 才 可 归 约 ,否则 出 错 。 在 这 个 分 析 过 程 中 把 # 也 放 在 终结 符 集中 。 


5.3.5 优先 函数 


前 面 用 算 符 优先 分 析 法 时 ,对 算 符 之 间 的 优先 关系 用 优先 矩阵 表示 ,这 样 需 占 用 大 量 的 
内 存 空间 , 当 文法 有 ? 个 非 终结 符 时 ,就 需要 有 (2 十 1)2 个 内 存单 元 (终结 符 和 间 号 ) 。 因 
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1 
置 初 值 k:=1, S[k]:=# 


一 


f 
当前 输入 符 读 入 a 


Q:=5[] N NZa? k=k+1 
SU]=a Si-a 
— T! | at LY A 
een N MEA 
jl j=j-2 y 
= ER Raa |_N 
N SUKO hee He 
TY 
SLAJ- SIKIAN CS 
kajtl STA:N 结束 
| ~~~ 


图 5.8 算 符 优先 分 析 归 约 过 程 流程 图 


而 ,在 实际 应 用 中 往往 用 优先 函数 来 代替 优先 矩阵 表示 优先 关系 。 它 对 具有 个 终结 符 的 
文法 ,只 需 2(z 十 1) 个 单元 存放 优先 函数 值 ,这 样 可 节省 大 量 的 存储 空间 。 
可 以 定义 两 个 函数 /,g 满足 如 下 条 件 : 
当 a =b, WS fla)=g(b), 
4 a <b, WS flad<gb). 
Hab Me fa>gb). 
Sg 称 为 优先 函数 , 它 的 值 可 用 整数 表示 。 下 面 给 出 其 构造 方法 。 
1. 由 定义 直接 构造 优先 函数 
若 已 知 文法 G 终结 符 之 间 的 优先 关系 ,可 按 如 下 步骤 构造 其 优先 函数 fg 
(1) 对 每 个 终结 符 ecEVr( 包 括 # 号 在 内 ) , 令 f(a) 二 g(a) 二 1( 也 可 是 其 他 整数 )。 
(2) 对 每 一 终结 符 对 逐一 比较 。 
如 果 a>b. i f(a<glb) MWA Fa) 一 g(CO) 十 1。 
如 果 acb, mi fag), MS gb)=flad+1. 
如 果 a =b. m f(a) 隆 g(0), 则 今 mini F(a) ,g(O)} 一 max{ f(a) .g(b)}. 
重复 (2) ,直到 过 程 收敛 。 如 果 重 复 过 程 中 有 一 个 值 大 于 2n, 则 表明 该 算 符 优先 文法 不 
存在 算 符 优先 函数 。 
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例如 , 若 已 知 表达 式 文法 的 算 符 优 先 矩 阵 如 表 5. 5 所 示 , 可 按 上 述 规则 构造 它 的 优先 函 
数 。 其 优先 函数 的 构造 过 程 为 : 首先 把 所 有 f(a),g (a) 的 值 置 为 1, 如 表 5.9 中 的 初 值 (0 
次 迭代 ) 。 然 后 对 算 符 优先 关系 矩阵 逐 行 扫描 , 按 前 述 算法 步骤 (2) 的 规则 修改 函数 f(a) 和 
8(a) 的 值 ,这 是 一 个 迭代 过 程 ,一 直 进 行 到 优先 函数 的 值 再 无 变化 为 止 。 在 表 5. 9 中 给 出 
每 次 迭代 对 优先 关系 矩阵 逐 行 扫描 后 函数 值 /(a) 和 g(a) 的 变化 结果 。 


表 5.9 表达 式 文法 优先 函数 计算 过 程 


和 迭代 次 数 + * 个 i ( ) # 
f 1 1 1 1 1 1 1 
0( 初 值 ) 
g 1 1 1 Í 1 1 1 
f 2 4 4 6 1 6 1 
1 
g 2 3 5 5 5 1 1 
f 3 5 5 7 1 7 1 
2 
g 2 4 6 6 6 1 1 
f 
3 同 第 2 次 迭代 结果 
8 


上 例 中 优先 函数 的 计算 迭代 三 次 收敛 。 不 难看 出 ,对 优先 函数 每 个 元 素 的 值 都 增加 同 
一 个 常数 ,优先 关系 不 变 。 因 而 ,对 同一 个 文法 的 优先 关系 矩阵 对 应 的 优先 函数 不 唯一 。 然 
而 ,也 有 一 些 优 先 关系 矩阵 中 的 优先 关系 是 唯一 的 , 却 不 存在 优先 函数 。 例 如 ,下 面 的 优先 
关系 矩阵 不 存在 优先 函数 fg 的 对 应 关系 。 


a 王 


Hy) Vis 


b = 


由 于 车 存在 优先 函数 fg, 则 必定 满足 下 列 条 件 : 

由 和 矩阵 的 第 一 行 应 有 f(a) =gla). fla)>glb). 

由 和 矩阵 的 第 二 行 应 有 f(b) = g(a), f(b)=g(b). 

这 样 导致 有 f(a) =glad= f(b) =g(b).45 fla) > gb) FE A EE PHA FFE o 

2. 用 关系 图 法 构造 优先 函数 

对 于 存在 优先 函数 的 优先 矩阵 ,也 可 以 用 关系 图 法 构造 优先 函数 ,构造 步骤 如 下 : 

(1) 对 所 有 终结 符 a( 包 括 #) 用 有 下 脚 标的 户 和 8g。 为 结 点 名 , 画 出 2n 个 结 点 。 

(2) 若 ui 盖 w 或 ai 二 ao WA fa P go, AAT 

Fi ai <a; MK a: =a; WA Ba, 到 Sa, 画 一 条 箭 弧 。 

(3) 给 每 个 结 点 赋 一 个 数 , 此 数 等 于 从 该 结 点 出 发 所 能 到 达 的 结 点 (包括 该 结 点 自身 在 
内 ) 的 个 数 。 赋 给 结 点 fa 的 数 就 是 函数 /ai) 的 值 , 赋 给 g。 的 数 就 是 函数 g (aj) 的 值 。 

(4) 对 构造 出 的 优先 函数 , 按 优先 关系 矩阵 检查 一 遍 是 否 满足 优先 关系 的 条 件 , 若 不 满 
足 , 则 说 明 在 关系 图 中 存在 3 个 或 3 个 以 上 结 点 的 回路 ,不 存在 优先 函数 。 
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例 5.4 若 已 知 优先 关系 矩阵 如 表 5. 10 所 示 。 
表 5.10 优先 关系 矩阵 


AAVV|* 
AV WV V+ 
HV VV ae 


i 

* < 
+ < 
# < 


构造 优先 关系 图 ,如 图 5.9 所 示 。 
由 图 5.9 求 得 的 优先 函数 结果 如 表 5. 11 所 示 。 


表 5.11 优先 函数 关系 表 


i * + # 
f 6 6 4 2 
g 7 5 3 2 


图 5.9 优先 函数 关系 图 
其 优先 函数 的 优先 关系 与 优先 矩阵 的 优先 关系 是 一 致 的 。 
例 5.5 已 知 优先 关系 矩阵 如 表 5. 12 所 示 。 
则 优先 关系 图 为 图 5. 10 ,优先 函数 表 为 表 5. 13。 


Se 表 5.12 优先 关系 矩阵 表 5.13 优先 函数 表 
Yor a b a b 
d ja ve 
b = a g 4 4 


图 5.10 优先 关系 图 


对 例 5. 5 用 优先 关系 图 所 得 到 的 优先 函数 与 优先 关系 矩阵 相 了 矛盾 ,因此 不 存在 优先 
函数 。 

用 优先 函数 分 析 虽 然 占 用 空间 少 , 但 它 有 不 可 克服 的 缺点 。 在 利用 优先 关系 矩阵 进行 
优先 分 析 时 , 当 一 个 终结 符 对 无 优先 关系 的 情况 时 优先 关系 矩阵 的 相应 元 素 为 出 错 信息 ;而 
用 优先 函数 进行 优先 分 析 时 ,对 一 个 终结 符 对 没有 优先 关系 的 情况 不 能 区 分 ,因而 出 错时 不 
能 准确 地 指出 错误 位 置 。 

例如 ,表达 式 为 i 十 i x i(i 十 让 # , 按 算 符 优 先 和 矩阵 i 与 (无 优先 关系 ,当归 约 分 析 到 
N 十 Nxi 时 ,能 即时 发 现 错误 ;而 用 优先 函数 分 析 , 则 此 时 发 现 不 了 错误 ,直到 归 约 到 
N 十 Nx NN 时 ,才能 由 两 个 非 终结 符 相 邻 出 现 而 发 现 错误 ,因而 不 能 准确 指出 错误 位 置 。 
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5.3.6 算 符 优先 分 析 法 的 局 限 性 


由 于 算 符 优先 分 析 法 去 掉 了 单 非 终结 符 之 间 的 归 约 ,尽管 在 分 析 过 程 中 , 当 决 定 是 否 为 
句柄 时 可 以 采取 一 些 检查 措施 ,但 仍 难 完全 避免 错误 的 句子 得 到 * 正 确 ” 的 归 约 。 
例 5.6 下 述 文法 是 一 个 算 符 优先 文法 ,其 产生 式 为 
S>S;D|D 
D>D(T)|H 
H-a\(S) 
T>T+S|S 
H Vy ={S,D,.T.H) Vr={350,) a, +} S 为 开始 符号 。 
对 应 的 算 符 优先 关系 矩阵 如 表 5. 14 所 示 。 


表 5.14 算 符 优先 关系 矩阵 表 


读者 自己 可 以 用 算 符 优先 分 析 法 对 输入 串 (a 十 a) # 进行 分 析 , 不 难 发 现 , 它 可 以 完全 
正确 地 进行 归 约 ,然而 (a 十 a) # 却 不 是 该 文法 能 推导 出 的 句子 。 此 外 ,通常 一 个 适用 语言 
的 文法 也 很 难 满 足 算 符 优先 文法 的 条 件 ,因而 算 符 优先 分 析 法 仅 适 用 于 表达 式 的 语法 分 析 。 
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1. 已 知 文法 GLS] 为 : 

S>al AICT) 

T>T.S\|S 
(1) 计算 GLSJ] 的 FIRSTVT 和 LASTVT。 
(2) 构造 GLS] 的 算 符 优先 关系 表 并 说 明 GLS] 是 否 为 算 符 优 先 文法 。 
(3) 计算 GLS] 的 优先 函数 。 
(4) 给 出 输入 串 (a,a)# 和 (ao,(Caya)) 划 的 算 符 优先 分 析 过 程 。 
2. 对 题 1 的 GCS]: 
(1) 给 出 (a,(a,a)) 和 (a,a) 的 最 右 推导 和 规范 归 约 过 程 。 
(2) 将 (1) 和 题 1 中 的 (4) 进 行 比较 ,说 明 算 符 优先 归 约 和 规范 归 约 的 区 别 。 
3. 有 文法 GIS]: 

S>V 

V>T|ViT 
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T>F|T+F 
F>)V « |( 
(1) 给 出 (十 (i( 的 规范 推导 。 
(2) 指出 句 型 下 十 Fi( 的 短语 、 句 柄 和 素 短 语 。 
(3) GLS] 是 否 OPG ,若是 ,给 出 (1) 中 句子 的 分 析 过 程 。 
4. 已 知 文法 GIS] 
S>S;G|G 
G>G(T)|H 
H—>a|(S) 
T>T+S|S 
(1) 构造 GLS] 的 算 符 优先 关系 表 , 并 判断 GLS] 是 否 为 算 符 优 先 文法 。 
(2) 给 出 句 型 CT 十 S); 互 ;(S) 的 短语 、 句 柄 、 素 短语 和 最 左 素 短 语 。 
(3) 给 出 a;(a 十 a) 和 (a 十 a) 的 分 析 过 程 ,说 明 它们 是 否 为 GLS] 的 句子 。 
(4) 给 出 (3) 中 输入 串 的 最 右 推导 ,分 别 说 明 两 个 输入 串 是 否 为 GLS] 的 句子 。 
(5) 由 (3) 和 (4) 说 明了 算 符 优先 分 析 的 哪些 缺点 ? 
(6) 算 符 优先 分 析 过 程 和 规范 归 约 过 程 都 是 最 右 推导 的 逆 过 程 吗 ? 
5. 已 知 布尔 表达 式 文法 GL[B] 为 
B>BoT|T 
T>TaF|F 
F>nF|(B)\t| f 
(1) GLB] 是 算 符 优先 文法 吗 ? 
(2) 若 GLBJ] 是 算 符 优先 文法 ,请 给 出 输入 串 nto fat + WIER 
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第 6 章 LR 分 析 


在 第 5 章 中 已 经 讨论 过 , 自 底 向 上 分 析 方 法 是 一 种 移 进 - 归 约 过 程 , 当 分 析 的 栈 顶 符号 
串 形 成 句柄 或 可 归 约 串 时 就 采取 归 约 动作 。 若 是 限定 采用 规范 规约 ,那么 自 底 向 上 分 析 法 
的 关键 问题 是 在 分 析 过 程 中 如 何 确定 句柄 。LR 分 析 法 正 是 给 出 一 种 能 根据 当前 分 析 栈 中 
的 符号 串 ( 通 常 以 状态 表示 ) 和 向 右 顺序 查看 输入 串 的 k&(k 宇 0) 个 符号 就 可 唯一 地 确定 分 析 
器 的 动作 是 移 进 还 是 归 约 和 用 哪个 产生 式 归 约 ,因而 也 就 能 唯一 地 确定 句柄 。LR 分 析 法 
的 归 约 过 程 是 规范 推导 的 逆 过 程 , 所 以 LR 分 析 过 程 是 一 种 规范 归 约 过 程 。 

LR(k) 分 析 方 法 是 1965 年 Knuth 呈 提出 的 ,括号 中 的 & 表示 向 右 查看 输入 串 符 号 的 个 
数 。 这 种 方法 比 起 自 顶 向 下 的 LL(k) 分 析 方 法 和 自 底 向 上 的 优先 分 析 方 法 对 文法 的 限制 要 
少 得 多 ,也 就 是 说 ,对 于 大 多 数 用 无 二 义 性 上 下 文 无 关 文 法 描述 的 语言 都 可 以 用 相应 的 LR 
分 析 器 进行 识别 ,而 且 这 种 方法 还 具有 分 析 速 度 快 ,能 准确 .即时 地 指出 出 错位 置 的 特点 。 
它 的 主要 缺点 是 对 于 一 个 实用 语言 文法 的 分 析 器 的 构造 工作 量 相当 大 ,k 愈 大 ,构造 愈 复 
杂 , 实 现 比较 困难 。 因 此 ,目前 许多 实用 的 编译 程序 , 当 采 用 LR 分 析 器 时 都 是 借助 于 美国 
Bell 实验 室 推出 的 yacc 来 实现 的 。yacc 能 接受 一 个 用 BNF 描述 的 满足 LR 类 中 LALR(1) 
的 上 下 文 无 关 文 法 并 对 其 自动 构造 出 LALR(1) 分 析 器 。 

本 章 主要 介绍 LR 分 析 的 基本 思想 和 当 k& 三 1 时 LR 分 析 器 的 基本 构造 原理 和 方法 。 
其 中 LR(0) 分 析 器 在 分 析 过 程 中 不 需 向 右 查 看 输入 符号 ,因而 它 对 文法 的 限制 较 大 ,对 绝 
大 多 数 高 级 语言 的 语法 分 析 器 是 不 能 适用 的 ;然而 , 它 是 构造 其 他 LR 类 分 析 器 的 基础 。 当 
k=1 时 ,已 能 满足 当前 绝 大 多 数 高 级 语言 编译 程序 的 需要 。 本 章 着 重 介绍 LR(0)、SLR(1)、 
LALR(1) 和 LR(1) 这 4 种 分 析 器 的 构造 方法 ,其 中 SLR(1) 和 LALR(1) 分 别 是 LR(0) 和 
LR(1) 的 一 种 改进 。 


6.1 LR 分 析 概 述 


一 个 LR 分析 器 由 3 个 部 分 组 成 : 

(1) 总 控 程 序 , 也 可 以 称 为 驱动 程序 。 对 所 有 的 LR 分 析 器 ,总 控 程 序 都 是 相同 的 。 

(2) 分 析 表 或 分 析 函 数 。 不 同 的 文法 分 析 表 将 不 同 , 同 一 个 文法 采用 的 LR 分 析 器 不 
同时 ,分 析 表 也 不 同 ,分 析 表 又 可 分 为 动作 (ACTION) 表 和 状态 转换 (GOTO) 表 两 个 部 分 ， 
它们 都 可 用 二 维 数组 表示 。 

(3) 分 析 栈 ,包括 文法 符号 栈 和 相应 的 状态 栈 。 它 们 均 是 先进 后 出 栈 。 

分 析 器 的 动作 由 栈 顶 状态 和 当前 输入 符号 来 决定 (LR(0) 分 析 器 不 需 向 前 查看 输入 
符号 ) 。 

LR 分 析 器 工作 过 程 示 意图 如 图 6. 1 所 示 。 

其 中 SP 为 栈 指 针 ,S[ 门 为 状态 栈 ,X[ 避 为 文法 符号 栈 。 状 态 转 换 表 内 容 按 关系 GOTO 
[S;,X]==S; 确定 ,该 关系 式 是 指 当 栈 顶 状态 为 S; 遇 到 当前 文法 符号 为 X 时 应 转向 状态 
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Sjo X 为 终结 符 或 非 终 结 符 , 状 态 的 含义 将 在 后 面 介绍 。 


输入 串 XXX…-# 
SP Sp | Xn aty ”一 一 输出 
BE d 
S| # ACTION GOTO 
表 表 


6.1 LR 分 析 器 工作 过 程 示 意图 


ACTION[S, ,a] 规 定 了 栈 顶 状态 为 S 时 遇 到 输入 符号 a 应 执行 的 动作 。 动 作 有 4 种 
可 能 : 

(1) 移 进 。 

4 Sj 二 GOTOLS;,a] 成 立 , 则 把 S; 移入 到 状态 栈 ,把 a 移入 到 文法 符号 栈 。 其 中 ij 
表示 状态 号 。 

(2) 归 约 。 

当 在 栈 顶 形成 句柄 为 8 时 , 则 用 8 归 约 为 相应 的 非 终结 符 A, 即 当 文法 中 有 AB 的 产 
生 式 ,而 8 的 长 度 为 ”~( 即 18| 三 六 , 则 从 状态 栈 和 文法 符号 栈 中 自 栈 顶 向 下 去 掉 ~ 个 符号 , 即 
栈 指 针 SP 减 去 ~>。 并 把 A 移入 文法 符号 栈 内 ,再 把 满足 S; 二 GOTOLS;,A] 的 状态 移 进 状 
态 栈 ,其 中 S; 为 修改 指针 后 的 栈 顶 状态 。 

(3) 接受 ace. 

当归 约 到 文法 符号 栈 中 只 剩 文法 的 开始 符号 S, 并 且 输 入 符号 串 已 结束 , 即 当前 输入 符 
是 # , 则 为 分 析 成 功 。 

(4) 报错 。 

当 遇 到 状态 栈 顶 为 某 一 状态 下 出 现 不 该 遇 到 的 文法 符号 时 则 报错 ,说 明 输 入 串 不 是 该 
文法 能 接受 的 句子 。 

LR 分 析 器 的 关键 部 分 是 分 析 表 的 构造 ,后 边 将 针对 每 种 不 同 的 LR 分 析 器 详细 介绍 其 
构造 思想 及 方法 。 


6.2 LR(0) 分 析 


LR(0) 分 析 表 构造 的 思想 和 方法 是 构造 其 他 LR 分 析 表 的 基础 。 在 第 5 章 例 5. 1 中 曾 
给 出 文法 GLS ] 为 : 

(1) S~aAcBe 

(2) A>b 

(3) A>Ab 

(4) Bod 

对 输入 串 abbede # JH A JES i) E JA 29 AI De A HEAT ob Br. 4 YAY BS G A HT BR HP FF AS e 
为 #aAb, 采 用 了 产生 式 (3) 进 行 归 约 而 不 是 用 产生 式 (2) 归 约 ,而 在 第 (3) 步 归 约 时 栈 中 符 
号 串 为 # ab 时 却 用 产生 式 (2) 归 约 , 虽 然 在 第 (3) 步 和 第 (5) 步 归 约 前 栈 顶 符号 都 为 5, 但 归 
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约 所 用 产生 式 却 不 同 , 其 原因 在 于 已 分 析 过 的 部 分 , 即 在 栈 中 的 前 级 不 同 。 在 LR 分 析 中 就 
体现 为 状态 栈 的 栈 顶 状态 不 同 。 为 了 说 明 这 个 问题 , 先 在 表 6. 1 中 给 出 例 5. 1 中 文法 GLS] 
的 LR(0) 分 析 表 ,在 表 6. 2 中 给 出 对 输入 串 abbede # 的 分 析 过 程 。 


表 6.1 例 5.1 文 法 的 LR(0) 分 析 表 


ACTION GOTO 

a c e b d # Ss A B 
0 S, 1 
1 ace 
2 S, 3 
3 S; S; 
4 r: re re ra T2 re 
5 Ss 7 
6 rs rs Ts rs rs rs 
7 Sy 
8 Ta re re Ta rs rs 
9 ri nn ri n n nr 


表 6.2 MMAR abbede+ MORALE 


步 又 状态 栈 符号 栈 输入 串 ACTION GOTO 
a) 0 = abbcde # S: 
(2) 02 #a bbcde# S, 
(3) 024 #ab bcde# Te S 
(4) 023 #aA bede # Se 
(5) 0236 #aAb cde# rs 3 
(6) 023 #aA cde# Ss 
(7) 0235 #aAc de# Ss 
(8) 02358 #aAcd et re ? 
(9) 02357 #aAcB e# Ss 
(10) 023579 #aAcBe # n 1 
(11) 01 #S # ace 


6.2.1 可 归 前 缀 和 子 前 组 


为 使 最 右 推导 和 最 左 归 约 的 关系 看 得 更 清楚 ,可 以 在 推导 过 程 中 加 入 一 些 附 加 信息 。 
若 对 例 5.1 文法 GLS] 中 的 每 条 产生 式 编 上 序号 ,用 [ 门 表示 ,并 将 其 加 在 产生 式 的 尾部 ,就 
使 产生 式 变 为 

S—>aAcBe[1] 

A—>b[2] 

A—>Ab[3] 

Bod[4] 

{ALE AN BF Pe AE SRY SOE FES XA P abbede 进行 推导 时 把 序号 也 带 入 , 作 最 右 推 
导 ,形成 如 下 形式 : 
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S 之 AcBe[1]=Acd[L4]e[L1] 

过 Ab[3]cd[4]e[1]=2[2]5[3]cd[4]e[I] 
输入 串 abbcde 是 该 文法 的 句子 。 
它 的 道 过程 一 一 最 左 归 约 (规范 归 约 ) 则 为 
abL2]JbL3Jcd[L4jJeL1] 用 产生 式 (2) 归 约 
<aAb[L3Jcd[4jJe[1] 用 产生 式 (3) 归 约 


<aAcd[L4jJe[1] 用 产生 式 (4) 归 约 
<aAcBe[1] 用 产生 式 (1) 归 约 
Ss 


其 中 < 表示 归 约 。 从 这 里 可 以 看 到 ,对 一 个 合法 的 句子 而 言 , 每 次 归 约 后 得 到 的 都 是 由 已 归 
约 部 分 和 输入 剩余 部 分 合 起 来 构成 文法 的 规范 句 型 ,而 用 哪个 产生 式 继续 归 约 仅 取决 于 当 
前 句 型 的 前 部 , 例 中 每 次 归 约 前 句 型 的 前 部 依次 为 

ab[2] 

aAb[3] 

aAcd[4] 

aAcBe[1] 

这 正 是 在 表 6. 2 的 分 析 过 程 中 每 次 采取 归 约 动作 前 符号 栈 中 的 内 容 , 即 分 别 对 应 步 
骤 (3)、.(5)、(8)、(10) 时 符号 栈 中 的 符号 串 ,规范 句 型 的 这 种 前 部 称 作 可 归 前 绥 。 

再 来 分 析 上 述 每 个 前 部 的 前 级 : 

€sasab 

e,a,aA,aAb 

€,a,aA,aAc,aAcd 

€,a,aA,aAc,aAcB,aAcBe 

不 难 发 现 前 级 a、aA 和 aAc 都 不 只 是 某 一 个 规范 句 型 的 前 级 ,因此 把 在 规范 句 型 中 形 
成 可 归 前 级 之 前 包括 可 归 前 级 在 内 的 所 有 前 级 都 称 为 活 前 级 。 活 前 级 为 一 个 或 若干 规范 句 
型 的 前 级 。 在 规范 归 约 过 程 中 的 任何 时 刻 ,只 要 已 分 析 过 的 部 分 ( 即 在 符号 栈 中 的 符号 串 ) 均 
为 规范 句 型 的 活 前 缀 , 则 表明 输入 串 已 被 分 析 过 的 部 分 是 该 文法 某 规范 句 型 的 一 个 正确 部 分 。 

为 了 适 于 LR 分 析 的 进行 , 需 对 文法 作 扩充 ,在 原文 法 G 中 增加 产生 式 S >S, S 为 原 
文法 G 的 开始 符号 ,所 得 的 新 文法 称 为 G 的 拓 广 文法 ,以 G 表 示 ,S 为 拓 广 后 文法 G 的 开 
始 符号 。 易 见 文法 G' 和 G 等 价 。 对 文法 进行 拓 广 的 目的 是 : 对 某 些 右 部 含有 开始 符号 的 
文法 ,在 归 约 过 程 中 能 分 清 是 否 已 归 约 到 文法 的 最 初 开始 符 , 还 是 在 文法 右 部 出 现 的 开始 符 
号 , 拓 广 文法 的 开始 符号 S' 只 在 左 部 出 现 ,这 样 确保 了 不 会 混淆 。 

由 此 可 以 形式 地 定义 活 前 级 如下。 

定义 6.1 F SR Aw R Bo 是 文法 G 的 拓 广 文法 G' 中 的 一 个 规范 推导 ,符号 串 7 是 


of 的 前 缀 , 则 称 7 是 G 的 一 个 活 前 级 。 也 就 是 说 y 是 规范 句 型 gw 的 前 级 ,但 它 的 右 端 不 
超过 该 句 型 句柄 的 末端 。 
由 以 上 分 析 很 容易 理解 ,在 LR 分 析 过 程 中 ,实际 上 是 把 ap 的 前 级 列 出 , 放 在 符号 栈 
中 ,一 旦 在 栈 中 出 现 a8, 即 句柄 已 经 形成 , 则 用 产生 式 A 一 8 进行 归 约 。 
w26» 


6.2.2 识别 活 前 级 的 有 限 自动 机 


在 LR 方法 实际 分 析 过 程 中 ,并 不 是 去 直接 分 析 文 法 符号 栈 中 的 符号 是 否 形成 句柄 ,但 
它 带 来 一 个 启示 ,可 以 把 终结 符 和 非 终 结 符 都 看 成 一 个 有 限 自动 机 的 输入 符号 ,每 把 一 个 符 
号 进 栈 时 看 成 已 识别 过 了 该 符号 ,而 状态 进行 转换 , 当 识别 到 可 归 前 组 时 ,相当 于 在 栈 中 形 
成 句柄 , 则 认为 到 达 了 识别 句柄 的 终 态 。 

如 果 对 例 5. 1 的 文法 用 拓 广 文法 表示 成 


S' 一 S[0] 

S—>aAcBe[1] 

A>b[2] 

A>AD[3] 

Bod[4] 

现 对 句子 abbede 列 出 可 归 前 级 : 

S[0] 

ab[2] 

aAb[3] 

aAcd[4] 

aAcBe[1] 

构造 识别 其 活 前 级 及 可 归 前 级 的 有 限 自动 机 如 图 6. 2 所 示 。 
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图 6.2 识别 活 前 级 及 可 归 前 缀 的 有 限 自动 机 


每 一 个 终 态 都 是 句柄 识别 态 ,用 〇 表示 , 仅 有 带 * 号 的 状态 既是 句柄 识别 态 又 是 句子 
识别 态 ,句子 识别 态 仅 有 唯一 的 一 个 。 

如 果 加 一 个 开始 状态 X 并 用 弧 和 每 个 识别 可 归 前 缀 的 有 限 自动 机 连接 , 则 可 变 为 图 6. 3。 
将 图 6. 3 确定 化 并 重新 编号 后 变 为 图 6. 4。 
由 例 5. 1 中 的 文法 ,对 输入 串 ab‘bede # 可 以 有 如 下 推导 : 
S'=S 

=u AcBe 

=uAcde 

=uAbcde 

Ssab'bcde 
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图 6.3 识别 活 前 级 的 不 确定 有 限 自动 机 


其 中 i 为 任意 正 整 数 。 

由 此 可 见 该 文法 所 描述 的 语言 可 用 正规 式 
ab* cde 表示 。 

用 有 限 自动 机 识别 时 ,每 当 识别 完 句柄 , 则 状态 
回 退 句柄 串 长 度 的 状态 数 。 例 如 ,在 图 6.4 中 , 若 已 
WIARE O ,这 时 句柄 已 形成 ,而 且 句柄 是 Ab, 
MH A Ab 归 约 ,状态 应 退回 到 加 ,又 因 左 部 为 A， 
所 以 相当 于 在 状态 @ 时 又 遇 到 A, 这 时 应 转向 状态 
@。 在 状态 @ 再 过 到 输入 串 的 一 个 5, 又 转 到 状态 加 ， 图 6.4 识别 活 前 级 的 确定 有 限 自 动机 
重复 上 述 过 程 。 

然而 对 于 一 个 复杂 的 文法 , 它 的 可 归 前 级 并 不 是 如 此 简单 就 能 计算 出 来 的 。 


6.2.3 活 前 缀 及 可 归 前 缀 的 一 般 计 算 方法 


在 6.2.2 节 中 , 仅 根 据 对 某 些 句 子规 范 推导 的 逆 过 程 直 观 地 看 出 它 的 活 前 级 和 可 归 前 
级 ,然后 构造 其 有 限 自 动机 ,在 6.2.2 节 的 例子 中 用 一 个 句子 归 约 过 程 的 所 有 活 前 缀 和 可 归 
前 级 构造 出 的 有 限 自动 机 ,刚好 也 是 识别 整个 文法 的 活 前 缀 及 可 归 前 级 的 有 限 自动 机 ,这 仅 
是 一 个 特殊 情况 。 然 而 ,对 一 个 任 给 的 上 下 文 无 关 文 法 , 需 有 确定 的 办 法 来 求 出 它 的 所 有 活 
前 级 和 可 归 前 级 ,才能 构造 其 识别 该 文法 活 前 级 的 有 限 自动 机 。 下 面 给 出 其 算法 。 

定义 6.2 设 G=(VN,Vr,P,S) 是 一 个 上 下 文 无 关 文法 ,对 于 AEVN 有 

LC(A)= lal S >aAwa€V" ,WwEVi} 


其 中 S' 是 G 的 拓 广 文法 G' 的 开始 符号 。 
这 里 LC(A) 表 明了 在 规范 推导 中 在 非 终 结 符 A 左边 出 现 的 符号 串 的 集合 。 有 了 这 个 
集合 ,就 可 以 找 出 不 包含 句柄 部 分 在 内 的 所 有 活 前 缀 。 
推论 : 若 文法 G 中 有 产生 式 B 一 YA6, 则 有 
LC(A)>LC(B) + {7} 
因为 对 任 一 形 为 aBw 的 名 型 , 必 有 规范 推导 : 


S' SaBo > ayAdw 
R R 


即 对 任 一 个 <cELCCB) A aYELC(A). 
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所 以 LCCB)。{7y}SLC(CA) 。 
由 定义 6. 2 推论 和 文法 的 产生 式 可 列 出 方程 组 ,那么 例 5. 1 文法 可 有 方程 : 


LC(S’) = {e} ti) 

LC(S) = LC(S’) + {e} = {e} (2) 

LC(A) = LC(S) » {a} U LC(A) « {e} = {a} (3) 

LC(B) = LC(S) + {aAc} = {aAc} (4) 

实际 上 ,前 级 的 集合 可 以 用 正规 表达 式 表示 ,为 方便 起 见 , 下 面 用 正规 式 来 表示 前 级 集 

合 , 即 上 述 方程 可 表示 为 

LOUS N= (1) 

LC(S) =e (2) 

LC(A) =a (3) 

LC(B) = aAc (4) 


这 里 仅 求 出 了 每 个 非 终结 符 在 规范 推导 过 程 中 用 该 非 终结 符 的 右 部 替换 该 非 终结 符 之 
前 , 它 的 左 部 可 能 出 现 的 串 ,也 就 是 在 规范 归 约 过 程 中 用 句柄 归 约 成 该 非 终结 符 之 前 不 包含 
句柄 部 分 的 串 , 因 而 只 要 再 把 句柄 加 入 就 求 得 了 包含 句柄 的 活 前 级 。 对 LR(0) 方 法 来 说 ， 
包含 句柄 的 活 前 级 计算 非常 简单 ,只 需 把 上 面 已 求 得 的 活 前 级 再 加 上 产生 式 的 右 部 ,可 用 如 
下 形式 表示 : 
规定 LR(0)CONTEXT(A 一 B)= 二 LC(A).B,LR(0)CONTEXT(A 一 B) 可 简写 为 LR(0) 
CAB) ,这 样 对 例 5. 1 文法 ,包含 句柄 的 活 前 级 可 有 
LR(O)C(S’>S)=S 
LR(0)C(SaAcBe) =aAcBe 
LR(O)C(A>b) =ab 
LR(O)C(A>Ab) =aAb 
LR(0O)C( Bd) =aAcd 
包含 句柄 的 活 前 级 也 就 是 可 归 前 级 ,将 它们 展开 也 就 得 到 了 所 有 的 活 前 级 。 
读者 可 以 用 它 构造 识别 文法 活 前 缀 的 有 限 自动 机 ,不 难 发 现 其 结果 与 图 6. 2 相同 ,说 明 用 
上 述 算法 与 前 面 用 直观 方法 所 求 得 的 结果 一 致 。 为 了 进一步 说 明 这 种 计算 的 结果 为 Vy UV 
的 正规 式 , 下 面 再 举 一 例 。 
设 文法 G 为 
(0) S'>E 
(1) E>aA 
(2) E>bB 
(3) A>cA 
(4) A>d 
(5) B>cB 
(6) Bod 
求 不 包含 句柄 在 内 的 活 前 绥 方 程 组 为 
LC(S’)=e 
LC(E)=LC(S’) + e=e 
LC(A)=LC(E) + al LC(A) + c=ac* 
LC(B)=LC(E) + b| LC(B) + c=be* 
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所 以 包含 句柄 的 活 前 绥 为 
LR(O)C(S’+E) =E 
LR(0)C(E>aA)=aA 
LR(0)C(E>6B) =bB 
LR(O)C(AcA) =ac* cA 
LR(O)C(A+d) =ac* d 
LR(0)C(B—>cB) =be* cB 
LR(O)C( Bd) =be* d 
由 此 可 构造 以 文法 符号 为 字母 表 的 识别 活 前 级 (包含 句柄 在 内 ) 的 不 确定 有 限 自 动机 如 
图 6.5 所 示 。 
如 前 所 述 , 所 有 的 状态 都 为 活 前 级 的 识别 状态 ,有 双 圈 人 O) 的 状态 为 识别 句柄 的 状态 , 双 
圈 劳 边 有 * 号 的 为 识别 句子 的 状态 。 识 别 句子 的 状态 是 唯一 的 。 对 图 6. 5 的 不 确定 有 限 状 
态 自动 机 可 用 子 集 法 进行 确定 化 ,结果 如 图 6. 6 所 示 o 


图 6.5 识别 可 归 前 缀 的 不 确定 有 限 自 动机 图 6.6 识别 可 归 前 缀 的 确定 有 限 自动 机 


因此 ,对 任何 一 个 上 下 文 无 关 文法 ,只 要 能 构造 出 它 的 识别 可 归 前 缀 的 有 限 自动 机 ,就 
可 以 构造 其 相应 的 分 析 表 ,也 就 是 前 面 所 介绍 的 状态 转换 表 和 动作 表 。 用 这 种 方法 构造 出 
的 识别 可 归 前 级 的 有 限 自动 机 从 理论 的 角度 讲 是 很 严格 的 ,然而 ,对 于 一 个 实用 的 高 级 语言 
的 文法 实现 起 来 却 是 很 复杂 的 ,因此 下 面 再 介绍 一 种 实用 的 方法 。 


6.2.4 LR(0) 项 目 集 规范 族 的 构造 


1. LR(0) 项 目 
在 文法 G 中 每 个 产生 式 的 右 部 适当 位 置 添加 一 个 圆 点 构成 项 目 。 
例如 ,产生 式 S>aAcBe 对 应 有 6 个 项 目 。 
[0] S> .aAcBe 
[1] S—>a + AcBe 
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[2] S—>aA + cBe 

[3] S—>aAc + Be 

[4] S>aAcB -e 

[5] S—>aAcBe + 

一 个 产生 式 可 对 应 的 项 目 个 数 一 般 为 它 的 右 部 符号 长 度 加 1。 值 得 注意 的 是 ,对 空 产 
ER, A> 仅 有 一 个 项 目 A 一 。 

每 个 项 目的 含义 与 圆 点 的 位 置 有 关 , 概 括 地 说 , 圆 点 的 左 部 表示 分 析 过 程 的 某 时 刻 欲 用 
该 产生 式 归 约 时 已 识别 过 的 句柄 部 分 , 圆 点 右 部 表示 期 待 的 后 组 部 分 。 

上 例 中 项 目的 编号 用 口中 的 数字 表示 ,项目 [0] 意 味 着 希望 用 S 的 右 部 归 约 ,当前 输入 
串 中 符号 应 为 ec; 项 目 [1] 表 明 用 该 产生 式 归 约 已 与 第 一 个 符号 匹配 过 了 。 需 分 析 非 终结 
符 A 的 右 部 ;项 目 [2 表明 A 的 右 部 已 分 析 完 归 约 成 A ,目前 希望 遇 到 输入 串 中 的 符号 为 c。 
依 此 类 推 ,直到 项 目 [5] 为 S 的 右 部 都 已 分 析 完毕 , 则 句柄 已 形成 ,可 以 进行 归 约 。 

2. 构造 识别 活 前 缀 的 NFA 

把 文法 的 所 有 产生 式 的 项 目 都 列 出 ,并 使 每 个 项 目 都 作为 NFA 的 一 个 状态 。 


以 文法 C 为 例 ， 

S’>E 

E>aAlbB 

A—>cAld 

B>cBld 

该 文法 的 项 目 有 

了 10. A—>d + 
2. SEs 11. E> + bB 
3. E>*aA 12. E>b » B 
4. E>arA 13. E>bB + 
5. E>aA ° 14. B> + cB 
6. A 一 "CA 15. B>c» B 
7. AeA 16. B—>cB » 
8. A>cA* 17. Bd 
9. A>ed 18. B>d- 


由 于 SUCHE SS — 4S 7 AE AS ea ES ARENE 1 为 初 态 ,其 余 每 个 状态 都 为 活 
前 级 的 识别 态 , 圆 点 在 最 后 的 项 目 为 句柄 识别 态 , 第 一 个 产生 式 的 句柄 识 别 态 为 句子 识别 
态 。 状 态 之 间 的 转换 关系 确定 方法 如 下 : 
FF i HAN: XX, XXi + XeoX, 
j 项 目 为 : XX, Xe Xa Xi t Xai X, 
i 项 目 和 j 项 目 出 于 同一 个 产生 式 , 对 应 于 NFA 为 状态 j 的 圆 点 只 落后 于 状态 i 的 圆 点 一 
个 符号 的 位 置 ,那么 从 状态 i 到 状态 j 连 一 条 标记 为 X; 的 箭 弧 。 如 果 X; 为 非 终 结 符 , 则 也 
会 有 以 它 为 左 部 的 有 关 项 目 及 其 相应 的 状态 。 例 如 ,有 项 目 形 如 
i X—>y- Aò 
k A>-g 
st. VS 


则 从 状态 i 夯 标记 为 es 的 箭 弧 到 状态 &, 对 于 A 的 所 有 产生 式 圆 点 在 最 左边 的 状态 都 连 一 条 
JA i 状态 到 该 状态 的 稍 弧 , 箭 弧 上 标记 为 =。 

按 上 面 的 规则 ,可 对 文法 G' 的 所 有 项 目 对 应 的 状态 构造 出 识别 活 前 缀 的 有 限 自动 机 
NFA, 如 图 6.7 所 示 。 图 中 双 圈 表示 句柄 识别 态 , 双 圈 外 有 * 号 者 为 句子 “接受 ” 态 。 

也 可 以 根据 圆 点 所 在 的 位 置 和 圆 点 后 是 终结 符 还 是 非 终结 符 把 项 目 分 为 以 下 几 种 : 

(1) 移 进项 目 , 形 如 A~a af. JEP a BEV? ,eaEVr: 即 圆 点 后 面 为 终结 符 的 项 目 为 移 
进项 目 , 对 应 状态 为 移 进 状态 。 分 析 时 把 a 移 进 符号 栈 。 

(2) 待 约 项 目 , 形 如 Aa + BB. SE a. BEV" ,BEVN, 即 圆 点 后 面 为 非 终结 符 的 项 目 
称 待 约 项 目 , 它 表明 所 对 应 的 状态 等 待 着 分 析 完 非 终结 符 B 所 能 推出 的 串 归 约 成 ,才能 
继续 分 析 A 的 右 部 。 

(3) 归 约 项 目 , 形 如 Asa ,其 中 EV * , 即 圆 点 在 最 右 端 的 项 目 , 称 归 约 项 目 , 它 表明 
一 个 产生 式 的 右 部 已 分 析 完 ,句柄 已 形成 ,可 以 归 约 。 

(4) 接受 项 目 , 形 如 S’ ae ,其 中 cEV+ ,S' 一 a 为 拓 广 文法 ,S' 为 左 部 的 产生 式 只 有 一 
个 ,因而 它 是 归 约 项 目的 特殊 情况 ,对 应 状态 称 为 接受 状态 。 规 定 S' 一 .a 为 初 态 。 实 际 上 
接受 项 目 中 的 为 文法 的 开始 符号 。 

对 于 图 6.7 所 示 的 识别 活 前 缀 的 NFA ,可 以 利用 第 3 章 讲 过 的 子 集 法 将 其 确定 化 。 对 
确定 化 后 的 DFA ,如 果 把 每 个 子 集中 所 含 状态 集 对 应 的 项 目 写 在 新 的 状态 中 ,结果 如 图 6. 8 
所 示 。 


6.7 ”识别 活 前 缀 的 NFA 


3. LR(0) 项 目 集 规范 族 的 构造 

构成 识别 一 个 文法 活 前 缀 的 DFA 项 目 集 (状态 ) 的 全 体 称 为 这 个 文法 的 LR(0) 项 目 集 
规范 族 ;然而 ,构造 识别 活 前 级 的 DFA 若 按 上 面 的 介绍 的 方法 , 列 出 拓 广 文法 的 所 有 项 目 ， 
按 规定 原则 构造 其 NFA( 见 图 6.7) ,然后 再 确定 化 为 DFA( 见 图 6. 8) ,这样 做 确定 化 的 工 
作 量 较 大 。 分 析 图 6. 8 中 每 个 状态 中 项 目 集 的 构成 ,不 难 发 现 如 下 规律 。 

若 状态 中 包含 形 如 A 一 a* BB 的 项 目 , 则 形 如 B 一 .7 的 项 目 也 在 此 状态 内 。 例 如 ,0 
状态 中 的 项 目 集 为 
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Or 
lyA>cA =| ls:Ame4: 
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l;B>cB | I Bod 
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Q. 


图 6.8 识别 活 前 级 的 DFA 


{S’> + E,E> + aA, E> + bB} 

回顾 由 NFA 确定 化 到 DFA It, E> + aA 和 已 -~。0B 正 是 属于 S' 一 .下 所 在 的 项 目 
集中 。 因 而 ,可 以 用 闭 包 函数 (CCLOSURE) 来 求 DFA 一 个 状态 的 项 目 集 。 

若 文法 G 已 拓 广 为 G ,而 S 为 文法 G 的 开始 符号 , 拓 广 后 增加 产生 式 S 一 S。 如 果 工 
是 文法 G 的 一 个 项 目 集 , 定 义 和 构 造 工 的 闭 包 CLOSURE(T) 的 步骤 如 下 : 

(1) 工 的 项 目 均 在 CLOSURE) F., 

(2) 车 A>a* BB 属于 CLOSURE(D, 则 每 一 形 如 B + y 的 项 目 也 属于 CLOSURE(I) 。 

(3) 重复 (2) 直 到 不 出 现 新 的 项 目 为 止 , 即 CLOSURE( 了 不 再 扩大 。 

由 此 ,可 以 很 容易 构造 出 初 态 的 闭 包 , 即 S> e SRT I, PHR LR 3 步 求 其 闭 包 。 

有 了 初 态 的 项 目 集 ,其 他 状态 的 项 目 集 如 何 求 出 ?回顾 在 构造 识别 活 前 级 的 NFA 时 除了 
箭 弧 上 标记 为 s 的 外 ,其 两 个 相 邻 状态 对 应 的 项 目 出 自 同一 个 产生 式 , 只 是 圆 点 的 位 置 相差 1。 

箭 弧 上 的 标记 为 前 一 个 状态 和 后 一 个 状态 对 应 项 目 圆 点 间 的 符号 ,而 识别 活 前 缀 的 
DFA 的 每 个 状态 是 一 个 项 目 集 ,项 目 集中 的 每 个 项 目 都 不 相同 ,每 个 项 目 圆 点 后 的 符号 不 
一 定 相同 ,因而 对 每 个 项 目 圆 点 移动 一 个 位 置 后 , 箭 弧 上 的 标记 也 不 会 完全 相同 ,这 样 ,对 于 
不 同 的 标记 将 转向 不 同 的 状态 。 例 如 , 初 态 1S' e E,E> + aA. E> -+ bB) ,对 第 一 个 项 目 ， 
圆 点 右 移 一 个 位 置 后 变 为 S' 一 下 。, 箭 弧 标 记 应 为 下 ;对 第 二 个 项 目 E-~“。aA, 圆 点 右 移 一 
个 位 置 后 变 为 已 ~a。A, 箭 弧 标 记 为 ;同样 第 三 个 项 目 圆 点 右 移 一 个 位 置 后 变 为 Ed  B, 
箭 弧 标 记 为 0。 显然 , 初 态 发 出 了 3 个 不 同 标记 的 箭 弧 ,因而 转向 3 个 不 同 的 状态 ,也 就 由 
初 态 派 生出 3 个 新 的 状态 ,对 于 每 个 新 的 状态 又 可 以 利用 前 面 的 方法 , 若 圆 点 后 为 非 终 结 
符 , 则 可 对 其 求 闭 包 , 得 到 该 状态 的 项 目 集 。 圆 点 后 面 为 终结 符 或 在 一 个 产生 式 的 最 后 , 则 
不 会 再 增加 新 的 项 目 。 例 中 新 状态 的 项 目 E-~a。A, 求 其 闭 包 可 得 到 项 目 集 为 {E->a。A， 
A 一 .cA,A 一 . d}。 同 样 , 另 一 新 状态 的 项 目 E>b*B. 求 其 闭 包 得 到 项 目 集 为 {E>b*B， 
B 一 .cB,B 一 .d)}。 对 于 新 状态 仅 含 项 目 SSE + 的 则 不 会 再 增加 新 的 项 目 。 这 样 ,由 初 
态 出 发 ,对 其 项 目 集 的 每 个 项 目的 圆 点 向 右 移 动 一 个 位 置 , 用 箭 弧 转 向 不 同 的 新 状态 , 箭 弧 
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上 用 移动 圆 点 经 过 的 符号 标记 。 新 状态 的 初始 项 目 ( 即 圆 点 移动 后 的 项 目 ) 称 为 核 。 例 中 
E>a， A 和 E>b，B 都 为 核 ,对 核 求 闭 包 就 为 新 状态 的 项 目 集 。 为 把 这 个 过 程 写成 一 般 的 
形式 ,定义 转换 函数 GOA, XAF: 
GOU.X)=CLOSURE(J) 
其 中 ,7 为 包含 某 一 项 目 集 的 状态 。 
X 为 一 文法 符号 ,XEVNUVr 
J 本 {任何 形 如 A—>aX + BINA |A>a + XB IRF I) 

这 也 表明 , 若 状态 工 识别 活 前 绥 y, 则 状态 J 识别 活 前 缀 YX 。 圆 点 不 在 产生 式 右 部 最 
左边 的 项 目 称 为 核 ,但 开始 状态 拓 广 文法 的 第 一 个 项 目 S e S 除外 。 因 此 用 GOCT,X) 转 
换 函 数 得 到 的 J 为 转向 后 状态 所 含 项 目 集 的 核 。 核 可 能 是 由 一 个 或 若干 个 项 目 组 成 。 因 
此 ,可 以 使 用 闭 包 函数 CLOSURE 和 转向 函数 GO(T,X) 构 造 文法 G 的 LR(0) 项 目 集 规范 
族 , 步 又 如 下 : 

(1) HRA S’—> + S 为 初 态 集 的 核 , 然 后 对 核 求 闭 包 ,CLOSURE({S' 一 。S)) ,得 到 初 
态 的 项 目 集 。 

(2) 对 初 态 集 或 其 他 所 构造 的 项 目 集 ,应 用 转换 函数 GOT, X) = CLOSURE (J ) 2 tht 
新 状态 J 的 项 目 集 。 

(3) 重复 (2) 直 到 不 出 现 新 的 项 目 集 为 止 。 

最 后 还 需要 说 明 的 是 ,由 于 任何 一 个 高 级 语言 相应 文法 的 产生 式 是 有 限 的 ,每 个 产生 式 
右 部 的 文法 符号 个 数 是 有 限 的 ,因此 每 个 产生 式 可 列 出 的 项 目 也 为 有 限 的 ,由 有 限 的 项 目 组 
成 的 子 集 ( 即 项 目 集 ) 作 为 DFA 的 状态 也 是 有 限 的 ,所 以 不 论 用 哪 种 方法 构造 识别 活 前 级 
的 有 限 自动 机 ,必定 会 在 有 穷 的 步骤 内 结束 。 

以 上 介绍 了 构造 识别 文法 活 前 级 DFA 的 3 种 方法 ,读者 可 对 它们 进行 比较 分 析 以 加 深 
理解 。 这 3 种 方法 可 以 粗略 地 概括 如 下 。 

第 1 种 方法 是 根据 形式 定义 求 出 活 前 级 的 正规 表达 式 , 然 后 由 此 正规 表达 式 构造 
NFA ,再 确定 化 为 DFA, 

第 2 种 方法 是 求 出 文法 的 所 有 项 目 , 按 一 定 规则 构造 识别 活 前 级 的 NFA, 再 确定 化 
为 DFA。 

第 3 种 方法 是 把 拓 广 文法 的 第 一 个 项 目 {S' 一 。S} 作 为 初 态 集 的 核 ,通过 求 核 的 闭 包 和 
转换 函数 , 求 出 LR(0) 项 目 集 规范 族 ,再 由 转换 函数 建立 状态 之 间 的 连接 关系 ,得 到 识别 活 
前 级 的 DFA, 

显然 第 1 种 方法 从 理论 上 讲 比 较 严格 确切 ,第 2、3 种 方法 较为 直观 ,从 直观 上 的 分 析 与 
理论 上 实现 的 结果 吻合 。3 种 做 法 虽然 不 同 , 但 出 发 点 都 是 把 LR 分 析 方 法 的 归 约 过 程 看 
成 是 识别 文法 规范 句 型 活 前 级 的 过 程 ,因为 只 要 分 析 到 的 当前 状态 是 活 前 级 的 识别 态 , 则 说 
明 已 分 析 过 的 部 分 是 该 文法 的 某 规范 句 型 的 一 部 分 ,也 就 说 明了 已 分 析 过 的 部 分 是 正确 的 。 

进一步 分 析 所 构造 的 LR(0) 项 目 集 规范 族 的 项 目 , 可 分 为 如 下 4 种 : 

(1) 移 进项 目 。 圆 点 后 为 终结 符 的 项 目 . 形 如 A>a*aB, 其 中 a,BEV* ,acEVr, 相 应 状 
态 为 移 进 状 态 。 

(2) 归 约 项 目 。 圆 点 在 产生 式 右 部 最 后 的 项 目 , 形 如 A 一 B， EHR BEV" ,对 于 B=e 的 
项 目 为 A 一 . (对 应 产生 式 为 A>) ,相应 状态 为 归 约 状态 。 
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(3) 待 约 项 目 。 圆 点 后 为 非 终结 符 的 项 目 , 形 如 A 一 a* BB, 其 中 a,BEV* ,BEVN, 这 
表明 用 产生 式 A 的 右 部 归 约 时 ,首先 要 将 B 的 产生 式 右 部 归 约 为 B, 对 A 的 右 部 才能 继续 
进行 分 析 。 也 就 是 期 待 着 继续 分 析 过 程 中 首先 能 进行 归 约 得 到 B。 

(A) 接受 项 目 。 当 归 约 项 目 为 SS， 时 , 则 表明 已 分 析 成 功 , 即 输 入 串 为 该 文法 的 句 
子 , 相 应 状态 为 接受 状态 。 

一 个 项 目 集中 可 能 包含 以 上 4 种 不 同 的 项 目 , 但 是 一 个 项 目 集 中 不 能 有 下 列 情 况 存 在 : 

(1) 移 进 和 归 约 项 目 同时 存在 , 形 如 

Aa aß 
Boy: 

这 时 如 果 面 临 输入 符号 为 ,不 能 确定 移 进 a 还 是 把 y 归 约 为 B, 因 为 LR(0) 分 析 是 不 
向 前 看 符号 ,所 以 对 归 约 的 项 目 不 管 当前 符号 是 什么 都 应 归 约 。 对 于 同时 存在 移 进 和 归 约 
项 目的 称 移 进 - 归 约 冲突 。 

(2) 归 约 和 归 约 项 目 同时 存在 , 形 如 

A>p+ 
Boy: 

这 时 不 管 面临 什么 输入 符号 ,都 不 能 确定 归 约 为 A 还 是 归 约 为 B, 对 同时 存在 两 个 以 
上 归 约 项 目的 状态 称 归 约 - 归 约 冲突 。 

对 一 个 文法 的 LR(0) 项 目 集 规范 族 不 存在 移 进 - 归 约 冲突 或 归 约 - 归 约 冲突 时 , 称 这 个 
文法 为 LR(0) 文 法 。 

4. LR(0) 分 析 表 的 构造 

LR(0) 分 析 表 是 LR(0) 分 析 器 的 重要 组 成 部 分 , 它 是 总 控 程 序 分 析 动 作 的 依据 。 对 于 
不 同 的 文法 ,LR(0) 分 析 表 不 同 , 它 可 以 用 一 个 二 维 数组 表示 , 行 标 为 状态 号 , 列 标 为 文法 符 
号 和 # 号 。 分 析 表 的 内 容 可 由 两 部 分 组 成 ,一 部 分 为 动作 (ACTION) 表 , 它 表 示 当 前 状态 
下 面临 输入 符号 时 应 做 的 动作 是 移 进 、 归 约 、 接 受 还 是 出 错 ,动作 表 的 列 标 只 包含 终结 符 和 
# ; 男 一 部 分 为 转换 表 (GOTO), 它 表示 在 当前 状态 下 面临 文法 符号 时 应 转向 的 下 一 个 状 
态 , 相 当 于 识别 活 前 级 的 有 限 自动 机 DFA 的 状态 转换 矩阵 。 因 此 构造 一 个 文法 的 LRO) 
分 析 表 时 ,首先 构造 其 识别 活 前 级 的 DFA ,这样 可 以 很 方便 地 利用 DFA 的 项 目 集 和 状态 转 
换 函 数 构造 它 的 LR(0) 分 析 表 。 在 实际 应 用 中 为 了 节省 存储 空间 ,通常 把 关于 终结 符 部 分 
的 GOTO KAI ACTION KER ,也 就 是 把 当前 状态 下 面临 终结 符 应 做 的 移 进 - 归 约 动作 和 
转向 动作 用 同一 数组 元 素 表 示 。 

LR(0) 分 析 表 的 构造 算法 如 下 : 

假设 已 构造 出 LR(0) 项 目 集 规范 族 为 

C={L Ds,1,} 
其 中 工 为 项 目 集 的 名 字 ,k HREH SUE S>. S 项 目的 集合 1 的 下 标 k 为 分 析 器 的 
初始 状态 。 那 么 分 析 表 的 ACTION KA GOTO 表 的 构造 步骤 如 下 : 

(1) 车 项 目 A 一 a* aB 属于 I Htet RA GOO, a) = 1.4% a 为 终结 符 时 则 置 
ACTION[A,a] 为 S; ,其 动作 含义 为 将 终结 符 a 移 进 符号 栈 , 状 态 ; 进入 状态 栈 ( 相 当 于 在 
RE k HBa 转向 状态 站 )。 

(2) EMH A>a + 属于 工 , 则 对 任何 终结 符 a 和 # 号 置 ACTION[k,aj] 和 ACTI- 
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ONL. HJA rjj 为 在 文法 G 中 某 产生 式 Ao 的 序号 。 广 动作 的 含义 是 把 当前 文法 符号 
栈 顶 的 符号 串 a 归 约 为 A ,并 将 栈 指针 从 栈 顶 向 下 移动 la| 的 长 度 ,符号 栈 中 弹出 |a| 个 符 
号 , 非 终 结 符 A 变 为 当前 面临 的 符号 。 

(3) # GOU .A) =I; . WE GOTOLk,A] 为 “j”, 其 中 A 为 非 终 结 符 , 表 示 当 前 状态 为 
“k” 时 , 遇 文 法 符号 A 时 状态 应 转向 j ,因此 A 移入 文法 符号 栈 ,j 移入 状态 栈 。 

(4) EMH SS. RF LWE ACTION[k,#] 为 acc, 表 示 接 受 。 

(5) 凡 不 能 用 上 述 方法 填 人 的 分 析 表 的 元 素 , 均 应 填 上 报错 标志 。 为 了 表 的 清晰 ,本 书 
在 表 中 用 空白 表示 错误 标志 。 

根据 这 种 方法 构造 的 LR(0) 分 析 表 不 含 多 重 定义 时 称 为 LR(0) 分 析 表 ,能 用 LR(0) 分 
析 表 的 分 析 器 称 为 LR(0) 分 析 器 ,能 构造 LR(0) 分 析 表 的 文法 称 为 LR(0) 文 法 。 


车 对 文法 G 的 产生 式 编号 如 下 : 
(0) S)>E (4)A>d 
(1) E>aA (5)B>cB 
(2) E>bB (6)B>d 
(3) A>cA 


那么 按 上 述 算法 构造 的 这 个 文法 的 LR(0) 分 析 表 如 表 6. 3 所 示 。 
表 6.3 LR(0) 分 析 表 


ACTION GOTO 
状态 

a b c d # E A B 
0 S: S: 1 
1 acc 
2 Sı Sio 6 
3 S; Su 7 
4 Sı So 8 
5 S; Su 9 
6 r r r r n 
7 re ra T2 re r2 
8 rs rs rs rs rs 
9 rs rs rs rs rs 
10 re rs Ta Ta rs 
11 re re rs re re 


5. LR(0) 分 析 器 的 工作 过 程 

对 一 个 文法 构造 了 它 的 LR(0) 分 析 表 后 ,就 可 以 在 LR 分 析 器 的 总 控 程 序 ( 驱 动 程序 ) 
控制 下 对 输入 串 进 行 分 析 , 即 根据 输入 串 的 当前 符号 和 分 析 栈 的 栈 项 状态 查找 分 析 表 应 采 
取 的 动作 ,对 状态 栈 和 符号 栈 进 行 相 应 的 操作 , 即 移 进 、 归 约 、 接 受 或 报错 。 具 体 说 明 如 下 : 

(1) # ACTION[S.a]=S,.a 为 终结 符 , 则 把 a 移入 符号 栈 ,ji BARA. 

(2) 若 ACTION[S,a]=r;.a 为 终结 符 或 # 号 , 则 用 第 j 个 产生 式 归 约 , 并 将 两 个 栈 的 
指针 减 去 &, 其 中 为 第 j 个 产生 式 右 部 的 符号 串 长 度 ,这 时 当前 面临 符号 为 第 j 个 产生 式 
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左 部 的 非 终结 符 ,不 妨 设 为 A, 归 约 后 栈 顶 状 态 设 为 n, 则 再 进行 GOTO[n,A]。 

(3) # ACTION[S,a]=acc,a 应 为 # 号 , 则 为 接受 ,表示 分 析 成 功 。 

(4) 车 GOTOLS,A]=j,A 为 非 终 结 符 , 表 明 前 一 动作 是 用 关于 A 的 产生 式 归 约 的 , 当 
前 面临 的 非 终结 符 A 应 移入 符号 栈 ,j 移入 状态 栈 。 对 于 终结 符 的 GOTOLS,aj] 已 和 
ACTION[S,a] 重 合 。 

(5) 车 ACTION[S ,oa] 为 空白 , 则 转向 出 错 处 理 。 

现在 用 表 6. 3 的 LR(0) 分 析 表 给 出 对 输入 串 beed # 的 LR(0) 分 析 , 其 状态 栈 、 符 号 栈 
及 输入 串 的 变化 过 程 如 表 6.4 所 示 。 

表 6.4 对 输入 串 bccd HH LR(0) 分 析 过 程 


步 又 状态 栈 符号 栈 输入 串 ACTION GOTO 
a) 0 # becd # S; 
(2) 03 #b ccd# Ss; 
(3) 035 # be cd# Ss 
(4) 0355 # bec d# Su 
(5) 0355(11) #bccd # re 9 
(6) 03559 # becB # rs 9 
(7) 0359 #bcB # rs 7 
(8) 037 #bB # rs 1 
(9) 01 +E # acc 


6.3 SLR(1) 分 析 


由 于 大 多 数 实用 的 程序 设计 语言 的 文法 不 能 满足 LR(0) 文 法 的 条 件 , 本 节 介绍 一 种 
SLR(1) 文 法 ,其 思想 是 基于 容许 LR(0) 规 范 族 中 有 冲突 的 项 目 集 (状态 ) ,用 向 前 查看 一 个 
符号 的 办 法 来 进行 处 理 , 以 解决 冲突 。 因 为 只 对 有 冲突 的 状态 才 向 前 查看 一 个 符号 ,以 确定 
做 哪 种 动作 ,所 以 称 这 种 分 析 方法 为 简单 的 LR(1) 分 析 法 ,用 SLR(1) 表 示 。 能 用 这 种 分 析 
法 分 析 的 文法 就 是 SLR(1) 文 法 。 下 面 作 具 体 介绍 。 

先 看 文法 例 : 

去 实 型 变量 说 明 二 一 real 一 标识 符 表 二 

<PRE> > RI RS ,i 

<A RS i 

将 该 文法 缩写 并 拓 广 后 得 文法 G 如 下 : 

(0) S'—S 

a) S+rD 

(2) D>D.i 

(3) D>i 

首先 构造 该 文法 的 LR(0) 项 目 集 规 范 族 ,如 表 6.5 所 示 。 
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表 6.5 G' 的 LR(0) 项 目 集 规 范 族 


R 态 核 集 合 闭 包 增加 项 目 项 目 集 
SS 
Io s>-S S>-+rD 
S~>*rD 
A Sos. SS. 
Sr: D 
D> .Di 
I, Sr°D D>* D,i 
D>*i 
D> i 
I S>rD- S->rD 。 
D>D: ,i D>D: ,i 
L Deis pi> 
I; D>D, °i D>D, +i 
Is D>D,i+ D>D,i+ 
再 用 GO 函数 构造 出 识别 活 前 级 的 DFA ,如 图 6.9 所 示 。 
I: S+rD- ， r i i 
[S'S > D=D,i | 7] GDSD ~~ DDE 
s D 
L:S—r:D 
一 人 Wiss r > : i pep: 
= 0 SD |_| D=-D,i S Ig Dt 
D-i 


分 析 每 个 状态 包含 的 项 目 集 , 不 难 发 现在 状态 1; 中 含有 以 下 项 目 : 


图 6.9 识别 文法 G' 活 前 级 的 DFA 


SerD> AWA. 

D>D-> ,为 移 进项 目 。 

也 就 是 按 S>rD +» 项 目的 动作 认为 用 S->rD 产生 式 进 行 归 约 的 句柄 已 形成 ,不 管 当 前 
的 输入 符号 是 什么 ,都 应 把 ~D 归 约 成 S。 但 是 按 D>D . ,项 目 .当面 临 输入 符 为 “,” 时 ， 
应 将 “, ”移入 符号 栈 , 状 态 转向 大。 显然 该 文法 不 是 LR(0) 文 法 ,也 可 在 构造 它 的 LR(0) 分 
析 表 时 发 现 这 个 问题 ,如 表 6.6 所 示 。 


表 6.6 实数 说 明文 法 的 LR(0) 分 析 表 


状 态 ACTION GOTO 
a , i # sS D 
0 S: t 
Į acc 
2 Sy 3 
3 n ri +Ss n n 
4 rs rs rs r3 
5 Ss 
6 ry T2 T2 rz 
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在 这 种 情况 下 ,只 需要 考查 当 用 句柄 rD 归 约 成 S 时 ,S 的 后 跟 符 号 集合 中 不 包含 当前 
所 有 移 进项 目的 移 进 符号 的 集合 时 , 则 这 种 移 进 - 归 约 冲突 便 可 解决 , 例 中 S 的 后 跟 符 集合 
为 {# 上 , 移 进 项 目 只 有 一 个 “,”, 因 而 移 进项 目 中 期 待 移 进 的 符号 集合 为 {,} ,这 样 可 以 在 状 
AS 1; 中 当 遇 “,” 时 做 移 进 动作 , 当 遇 # 号 时 做 归 约 动作 。 上 述 LR(0) 分 析 表 做 局 部 改动 后 
不 再 存在 冲突 时 称 为 SLR(1) 文 法 ,其 分 析 表 如 表 6.7 所 示 。 
表 6.7 实数 说 明文 法 的 SLR(1) 分 析 表 


状 态 ACTION GOTO 
r i # sS D 
0 S: 1 
1 ace 
2 S, 3 
3 S; n 
4 rs rs rs rs 
5 Ss 
6 re re rs re 


假定 一 个 LR(0) 规 范 族 中 含有 如 下 的 项 目 集 ( 状 态 )T: 
I1={X>a+ bB,A>7. .B>d = } 
也 就 是 在 该 项 目 集中 含有 移 进 - 归 约 冲突 和 归 约 - 归 约 冲突 。 其 中 a、B、Y.6 为 文法 符号 串 ， 
5 为 终结 符 。 那 么 只 要 在 所 有 含有 A 或 B 的 句 型 中 ,直接 跟 在 A 或 B 后 的 可 能 终结 符 的 集 
合 即 FOLLOW(A) 和 FOLLOW(B) 互 不 相交 , 且 都 不 包含 2, 也 就 是 只 要 满足 
FOLLOW(A) NFOLLOW(B) = Ø 
FOLLOW(A) N {b} =Ø 
FOLLOW(B) N {b} = Ø 
那么 , 当 在 状态 工时 ,如 果 面 临 某 输入 符号 为 a, 则 动作 可 按 以 下 规定 决策 : 
(1) # a=b, WE. 
(2) # aE FOLLOW(A) , 则 用 产生 式 Ay 进行 归 约 。 
(3) 若 cEFOLLOW(B), 则 用 产生 式 Bo 进行 归 约 。 
(4) 此 外 ,报错 。 
通常 LR(0) 规 范 族 的 一 个 项 目 集 工 中 可 能 含有 多 个 移 进 项 目 和 多 个 归 约 项 目 ,可 假设 
项 目 集 TI( 状 态 ) 中 有 m 个 移 进 项 目 : Aa * ah Ara * arbrit Amam * ambn ;同时 
含有 nn 个 归 约 项 目 : BN ©. Be 2 ，,…,B, 一 7,。, 只 要 集合 {ai,as,，…,am)} 和 
FOLLOW(B, ) ,FOLLOW(B,),…,FOLLOW(B,) 两 两 交集 都 为 空 ,那么 仍 可 用 上 述 规则 
解决 冲突 , 即 考查 当前 输入 符号 以 决定 动作 。 
A) 车 a€ {asaz san} WEH. 
(2) # aC FOLLOW(B,) ,i 二 1,2,…,n, 则 用 B; 一 7y; 进 行 归 约 。 
(3) 此 外 ,报错 。 
如 果 对 于 一 个 文法 的 LR(0) 项 目 集 规范 族 的 某 些 项 目 集 或 LR(0) 分 析 表 中 所 含有 的 
动作 冲突 都 能 用 上 述 方法 解决 , 则 称 这 个 文法 是 SLR(1) 文 法 ,所 构造 的 分 析 表 为 SLR(1) 
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分 析 表 ,使 用 SLR(1) 分 析 表 的 分 析 器 称 为 SLR(1) 分 析 器 。 
例如 ,可 以 构造 算术 表达 式 文法 的 LR(0) 项 目 集 规范 族 .然后 分 析 它 是 LR(0) 文 法 还 
是 SLR(1) 文 法 , 现 将 表达 式 文法 G 拓 广 如 下 : 


(0) S 一 下 

(1) E>E+T 

(2) E>T 

(3) T>T*F 

(4) T>F 

(5) F>(E) 

(6) F>i 

该 文法 的 LR(0) 项 目 集 规范 族 为 

WW I;: F>i+ 
E>+E+T Is: E>E++T 
E>-T T>-T*F 
T>+T*F T> °F 
T>-F F> + (ŒE) 
F>- (Œ) Foei 
Foei I: T>T* °F 

Ei SE F>. (Œ) 
E>E++T eet 

kL: E>T. Ig: F>(E*) 
TST. +F E>E++T 

kL: T>F° h: E>E+T> 

lL: F>(. E) T?T+*F 
E>+E+T Iy:T>T*F* 
E>-T I, :F>(E) + 
T>+T*F 
T>+F 
F>- (Œ) 
Foei 


与 此 相应 的 识别 该 文法 活 前 绥 的 有 限 自 动机 如 图 6. 10 所 示 。 

不 难看 出 在 五感 中 存在 移 进 - 归 约 冲 突 , 因 而 这 个 表达 式 文法 不 是 LR(0) 文 法 ,也 
就 不 能 构造 LR(0) 分 析 表 ,现在 分 别 考查 这 3 个 项 目 集 (状态 ) 中 的 冲突 是 否 能 用 SLR(1) 
方法 解决 。 

在 工 中 : 

S>E. 
E>E++T 

th F FOLLOW(S’)=( #}. iff SSE + 是 唯一 的 接受 项 目 ,所 以 当 且 仅 当 遇 到 句子 的 

结束 符 # 时 才 被 接受 。 又 因 {#}) 门 {十 } 二 名 ,因此 工 中 的 冲突 可 解决 。 
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Ig, E~ET 
T—-T*F 


Ty: EEFT- 
T=T*F 


ho TTF 


图 6.10 识别 表达 式 文法 活 前 组 的 DFA 


{E LP: 
E>T. 
T>T+ *F 
可 计算 非 终 结 符 玉 的 FOLLOW 集 为 
FOLLOW(E)={ 十 ,),#} 
这 样 FOLLOW(E)N {x)= 二 {十 ,),#) 间 {x*} 二 多 ,因此 当面 临 输入 符 为 十 、) 或 # 时 ， 
则 用 产生 式 EST 进行 归 约 ;当面 临 输入 符 为 * 时 , 则 移 进 ;其 他 情况 则 报错 。 
在 了 中 : 
E>E+T. 
T>T+ *F 
与 1 中 的 情况 类 似 , 因 归 约 项 目的 左 部 非 终 结 符 E 的 后 跟 符 集合 FOLLOW CE) = 
{ 十 ,) ,# } 与 移 进项 目 圆 点 后 终结 符 不 相交 ,所 以 冲突 可 以 用 SLR(1) 方 法 解决 ,与 1 不同 
的 只 是 在 面临 输入 符 为 十 、) 或 # 时 用 产生 式 E>E 十 醋 归 约 。 
由 以 上 考查 可 知 , 该 文法 在 Ih、I、1s 三 个 项 目 集 ( 状 态 ) 中 存在 的 移 进 - 归 约 冲突 都 可 以 
用 SLR(1) 方 法 解决 ,因此 该 文法 是 SLR(1) 文 法 。 可 构造 其 相应 的 SLR(1) 分 析 表 。 
SLR(1) 分 析 表 的 构造 与 LR(0) 分 析 表 的 构造 类 似 , 仅 在 含有 冲突 的 项 目 集 中 分 别 进行 
处 理 。 但 进一步 分 析 可 以 发 现 如 下 事实 ,例如 在 状态 I; 中 ,只 有 一 个 归 约 项 目 TOF + , 按 
照 SLR(1) 方 法 ,在 该 项 目 中 没有 冲突 ,所 以 可 以 保持 原来 LR(0) 的 处 理 方法 ,不 论 当 前 面 
临 的 输入 符号 是 什么 ,都 将 用 产生 式 TF 进行 归 约 。 显 然 工 的 后 跟 符 没有 (符号 ,如 果 当 
前 面临 输入 符 是 (, 也 进行 归 约 显然 是 错误 的 ,然而 这 是 输入 串 不 合法 的 错误 ,在 此 照常 归 约 
虽 不 报错 ,但 此 处 的 错误 在 作 进一步 LR(0) 分 析 时 仍 能 被 发 现 ,只 不 过 是 把 错误 的 发 现 推 
述 到 下 一 步 而 已 。 如 果 对 所 有 归 约 项 目 都 采取 SLR(1) 的 处 理 思想 , 即 对 所 有 非 终 结 符 都 
求 出 其 FOLLOW 集合 ,这 样 仅 当归 约 项 目 在 面临 的 输入 符号 包含 在 该 归 约 项 目 左 部 非 终 
结 符 的 FOLLOW 集合 中 时 , 才 采 取 用 该 产生 式 归 约 的 动作 , 则 这 种 处 理 就 可 以 通过 某 些 不 
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该 归 约 的 动作 而 提前 发 现 错误 。 对 于 这 样 构造 的 SLR(1) 分 析 表 ,不 妨 称 它 为 改进 的 
SLR(1) 分 析 表 。 改 进 的 SLR(1) 分 析 表 的 构造 方法 如 下 : 

假设 已 构造 出 文法 的 LR(0) 项 目 集 规范 族 和 计算 出 所 有 非 终 结 符 的 FOLLOW 集合 。 

项 目 集 规范 族 为 C= 二 {1 Ty oe ,了 ), 其 中 为 项 目 集 的 名 字 ,k 为 状态 名 , 令 包 含 S 一 ，S 
项 目的 集合 L 的 下 标 为 分 析 器 的 初始 状态 , 求 出 所 有 非 终结 符 的 FOLLOW 集 。 

改进 的 SLR(1) 分 析 表 的 动作 (ACTION) 表 和 状态 转换 (GOTO) 表 的 构造 步骤 如 下 : 

(1) HUA A>a + ab RF L, ARMM GOU, a) = 1.4 a 为 终结 符 时 , 则 置 
ACTION[k,a] 为 s,。 

(2) 若 项 目 A>a。* 属 于 了 , 则 对 a 为 任何 终结 符 或 # , 且 满 足 aEFOLLOW(A) 时 , 置 
ACTION[k,aj 二 7j,j 为 产生 式 A 一 a 在 文法 G 中 的 编号 。 

(3) # GOC .A)=1, Wl GOTOLR.AJ=j. HB A 为 非 终 结 符 ,j 为 某 一 状态 号 。 

(4) 若 项 目 S'S + RF LWE ACTIONLR, # J=acc, RAE. 

(5) 凡 不 能 用 上 述 方法 填 和 人 的 分 析 表 的 元 素 , 均 应 填 上 报错 标志 ,在 本 书 中 用 空白 表示 。 

用 上 述 步骤 对 算术 表达 式 文法 构造 改进 的 SLR(1) 分 析 表 如 表 6. 8 所 示 。 

表 6.8 改进 的 SLR(1) 分 析 表 


ACTION GOTO 
状态 

i + * ( ) # E T F 
0 S; S, 1 2 3 
1 Ss acc 
2 re S, re r: 
3 rs r4 rs Ta 
4 S; S, 8 2 3 
5 re re re re 
6 Ss Sı 9 3 
7 S; Sı 10 
8 Se Su 
9 rn S, n n 
10 rs rs rs rs 
11 rs rs rs rs 


SLR(1) 分 析 器 用 表 6. 8 的 SLR(1) 分 析 表 对 符号 串 iti i 进行 分 析 时 栈 的 变化 过 
程 ,如 表 6.9 所 示 。 


表 6.9 MHARiti« # SLR(1) 分 析 过 程 


步 又 状态 栈 符号 栈 输入 串 ACTION GOTO 
@ 0 # i+ixi# Ss 
(2) 05 #i +i*i# rs 3 
(3) 03 #F +i*i# rs 2 
(4) 02 #T +ixi# re 1 


续 表 


+ 又 状态 栈 符号 栈 输入 串 ACTION GOTO 
(5) 01 #E +i*i# Ss 
(6) 016 #E+ i*i#t S; 
(7) 0165 #E+i *i# re 3 
(8) 0163 #E+F *i# re 9 
(9) 0169 #E+T *i# S, 
(10) 01697 #E+T* iz S; 
(11) 016975 #E+Txi # re 10 
(12) 01697(10) #E+T*F # rs 9 
(13) 0169 #E+T # rn 1 
(14) 01 #E # acc 


尽管 采用 SLR(1) 方 法 能 够 对 某 些 LR(0) 项 目 集 规范 族 中 存在 动作 冲突 的 项 目 集 通 过 
用 向 前 查看 一 个 符号 的 办 法 来 解决 冲突 ,但 是 仍 有 许多 文法 构造 的 LR(0) 项 目 集 规范 族 存 
在 的 动作 冲突 不 能 用 SLR(1) 方 法 解决 。 

例如 ,文法 GH 

(0) S 一 S 

(1) S>aAd 

(2) S>bAc 

(3) S~aec 

(4) S>bed 

(5) Ae 

首先 用 S 一 。S 作为 初 态 集 的 项 目 , 然 后 用 闭 包 函数 和 转换 函数 构造 识别 文法 G 的 活 
前 级 的 有 限 自 动机 DFA, 如 图 6. 11 所 示 , 可 以 发 现在 项 目 集 A 1; 中 存在 移 进 和 归 约 
冲突 。 


n° 
hi S'S 1: S'S: 
Eh 
S—-bAc 
a S—aec $ 
S—-bed | 
1 
ly SaAd A ä 1z: S—b-Ac 
S>aec S>+bed 
Ae | | Ae 
be ! be 
ls: Saee I; Ig: ly: S>bed 
Are Saded S+bA-c Are 
上 l le 加 
In: Ty: To: hr 
Saec: Sadd: S>bAc: S— bed 


E 6.11 LR(0) 识 别 G' 的 活 前 缀 的 DFA 
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Is: Saerc Ir: S>be °” d 
Aes A—>e 
FOLLOW(A)={c,d} 
{E Is P,FOLLOWCMA)N {e}= {csd} N 10) A. 
在 I 中 ,FOLLOW(A) N id}={csdi Nid ED. 
因此 五 和 五 中 的 冲突 不 能 用 SLR(1) 方 法 解决 ,只 能 考虑 用 下 面 将 要 介绍 的 LR(1) 方 
法 解决 。 


6.4 LR(1) 分 析 


由 于 用 SLR(1) 方 法 解决 动作 冲突 时 ,对 于 归 约 项 目 A 一 a* ,只 要 当前 面临 输入 符 为 
aEFOLLOW(A) 时 ,就 确定 采用 产生 式 Aa 进行 归 约 ,但 是 如 果 栈 里 的 符号 串 为 Ba, 归 约 
后 变 为 BA, 再 移 进 当前 符 a, 则 栈 里 变 为 BAa ,而 实际 上 BAa 未 必 为 文法 规范 句 型 的 活 前 级 。 

例如 ,在 识别 表达 式 文法 的 活 前 级 DFA( 见 图 6. 10) 中 ,在 项 目 集 到 中 存在 移 进 - 归 约 
whe, A E>T + .T>T + * 下) ,车 栈 顶 状态 为 2, 栈 中 符号 为 # 了 ,当前 输入 符 为 ), 而 ) 属 
FOLLOW(E) 中 ,这 时 按 SLR(1) 方 法 应 用 产生 式 E> 了 进行 归 约 , 归 约 后 栈 顶 符号 为 #E， 
而 再 加 当前 符 ) 后 , 栈 中 为 #E), 不 是 表达 式 文法 规范 句 型 的 活 前 级 。 因 此 可 以 看 出 ， 
SLR(1) 方 法 虽然 相对 于 LR(0) 有 所 改进 ,但 仍然 存在 着 多 余 归 约 , 也 说 明 SLR(1) 方 法 向 
前 查看 一 个 符号 的 方法 仍 不 够 确切 。LR(1) 方 法 恰好 是 要 解决 SLR(1) 方 法 在 某 些 情况 下 
存在 的 无 效 归 约 问题 。 

现在 再 看 图 6.11 在 Ts 、1; 项 目 集中 的 移 进 - 归 约 冲突 ,不 能 用 SLR(1) 方 法 解决 的 原因 
如 下 。 

先 看 L 中 的 情况 。 

I;; Sae*c 

Aes 
因 S’=>S=aAd=>aed 
R R R 

S'S aec 
这 两 个 最 右 推 导 已 包括 了 活 前 级 为 a 的 所 有 句 型 ,因此 不 难看 出 ,对 活 前 缀 ae 来 说 ,当面 临 
输入 符号 c 时 应 移 进 , 面 临 4 时 应 用 产生 式 A 一 e 归 约 。 因 为 S'SXaAc ,所 以 aAc 不 是 该 
文法 的 规范 名 型。 这 也 说 明了 并 不 是 FOLLOW(A) 的 每 个 元 素 在 含 A 的 所 有 和 句 型 中 在 A 
的 后 面 都 会 出 现 , 例 中 d 只 在 规范 句 型 aAd 中 A 的 后 面 出 现 ,因此 面临 的 输入 符 为 & 才 应 
归 约 。 

再 看 在 五 中 的 情况 。 

l: S>be+d 

Aes 
而 = S’>S>bAc>bec 
R R R 
S'>S>bed 
这 两 个 最 右 推导 包含 了 活 前 缀 为 5 的 所 有 名 型, 可见 FOLLOW(A) 中 的 c 只 能 跟 在 句 
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型 bpAc 中 A 的 后 面 ,这 样 ,在 I; 中 当面 临 输入 符 为 c 时 才能 归 约 。 根 据 项 目 集 的 构造 原 
WA: 

若 LA 一 a，BB]E 项 目 集 T, 则 [B 一 .7Y] 也 ET1(B>7Y 为 一 产生 式 ) 。 

由 此 不 妨 考虑 把 FIRST(B) 作 为 用 产生 式 By 归 约 的 搜索 符 , 称 为 向 前 搜索 符 , 作 为 
归 约 时 查看 的 符号 集合 ,用 以 代替 SLR(1) 分 析 中 的 FOLLOW 集 ,把 此 搜索 符号 的 集合 也 
放 在 相应 项 目的 后 面 ,这 种 处 理 方法 即 LR(1) 方 法 。 


6.4.1 LR(1) 项 目 集 族 的 构造 


以 S' 一 .S,# 属 于 初始 项 目 集 中 ,把 # 作 为 向 前 搜索 符 , 表 示 活 前 缀 为 Y( 若 7 是 有 关 
S 产生 式 的 某 一 右 部 ) 要 归 约 成 S 时 ,必须 面临 输入 符 为 # 才 行 。 对 初始 项 目 S e S, H 
求 闭 包 后 ,再 用 转换 函数 逐步 求 出 整个 文法 的 LR(1) 项 目 集 族 。 具 体 构造 步骤 如 下 : 

(1) 构造 LRC1) 项 目 集 的 闭 包 函 数 。 

O 假定 I 是 一 个 项 目 集 ,I 的 任何 项 目 都 属于 CLOSURE(D) 。 

© 车 有 项 目 A 一 a， BB,a 属于 CLOSURE(71),B 一 y 是 文法 中 的 产生 式 ,BEV'， 
bE FIRST (fa) , 则 B 一 .7Y,b 也 属于 CLOSURE(7T)。 

© 重复 @ ,直到 CLOSURE( 了 不 再 增 大 为 止 。 

(2) 构造 转换 函数 。 

LR(1) 转 换 函 数 的 构造 与 LR(0) 的 相似 : 

GO(I,X)=CLOSURE(]) 
其 中 I 是 LR(1) 的 项 目 集 ,X 是 文法 符号 ， 
J 本 二 {任何 形 如 [A—>aX，B,aj] 的 项 目 |[A>a* XB,a]€7T) 

对 文法 G 的 LR(1) 项 目 集 族 的 构造 仍 以 [LS' 一 ，S,# ] 为 初 态 集 的 初始 项 目 , 然 后 对 其 
求 闭 包 和 转换 函数 ,直到 项 目 集 不 再 增 大 为 止 。 

也 就 是 对 状态 工 经 过 符号 X 后 转向 状态 J ORM J 的 核 后 ,对 核 求 闭 包 即 为 CLOSURE(7)。 

现在 可 以 对 上 面 例子 中 不 能 用 SLR(1) 方 法 解决 1;、I; 中 移 进 - 归 约 冲突 的 文法 构造 它 
的 LR(1) 项 目 集 规范 族 如 下 : 


eS =e SH l: SwaA+d.# 
S>+aAd,# I;: Sae*c.# 
S> + bAc, # Aes „d 
S>+aec.# Ie: S>bA °c, # 
S> + bed, Ë Ir: S>be +d, # 
he SS., # Ae* sc 
I: Sa+ Ad, # Is: SaAd+ .# 
S—>a ° ec, # Is: S~aec* ,# 
A> *e.d Ty :S—bAc + .# 
I;: S>b+ Ac, # In:S>bed + ,# 
S>b+ed.# 
AS est 


这 样 LR(1) 方 法 构造 的 项 目 集 规范 族 在 项 目 集 I; 和 ;中 的 移 进 - 归 约 冲突 便 可 解决 。 
< abs 


由 于 归 约 项 目的 搜索 符 集合 与 移 进项 目的 待 移 进 符号 不 相交 ,所 以 在 五 中 ,当面 临 输入 符 
为 d 时 归 约 ,为 c< 时 移 进 ;而 在 了 中 , 则 当面 临 输入 符 为 c 时 归 约 ,为 d 时 移 进 ,冲突 已 全 部 
可 以 解决 ,因此 该 文法 为 LR(1) 文 法 。 


6.4.2 LR(1) 分 析 表 的 构造 


由 于 一 个 LR(1) 项 目 可 以 看 成 由 两 个 部 分 组 成 ,一 部 分 和 LR(0) 项 目 相 同 , 称 为 心 , 另 
一 部 分 为 向 前 搜索 符 集合 ,因而 LR(1) 分 析 表 的 构造 与 LR(0) 分 析 表 的 构造 在 形式 上 基本 
相同 ,只 是 归 约 项 目的 归 约 动作 取决 于 该 归 约 项 目的 向 前 搜索 符 集 , 即 只 有 当面 临 的 输入 符 
属于 向 前 搜索 符 的 集合 , 才 做 归 约 动作 ,其 他 情况 均 出 错 。 具 体 构造 过 程 如 下 : 

若 已 构造 出 某 文法 的 LR(1) 项 目 集 族 C: 

C={1 ,TD ,1,} 

其 中 L 的 & 为 分 析 器 的 状态 , 则 动作 (ACTION) 表 和 状态 转换 (GOTO) 表 构造 方法 如 下 : 

(1) 车 项 目 [A>a * aß b]RF L.A. GOU,.a)= 工 , 其 中 a€EVzr, 则 置 ACTION[k,aj]= 
Sjo S 的 含义 是 把 输入 符号 a 和 状态 j 分 别 移入 文法 符号 栈 和 状态 栈 。 

(2) 车 项 目 [A>a* sa] RF L WE ACTION[k,aj]==r;。 其 中 ,a€EVzr,r; 的 含义 为 把 
当前 栈 顶 符号 串 a 归 约 为 A( 即 用 产生 式 A>a 归 约 ),j 为 在 文法 中 产生 式 A>a 的 编号 。 

(3) HUH ALS’>S + .# RF 1, WWE ACTION[A,#] 王 acc, 表 示 “ 接 受 ”。 

(4) 车 GO(L,A)=L, 其 中 AEVy, 则 置 GOTO[k,A]=j ,表示 转 入 j 状态 , 置 当前 文 


法 符号 栈 顶 为 A, 状 态 栈 顶 为 jo 
(5) 凡 不 能 用 规则 (1) 一 (4) 填 和 人 分 析 表 中 的 元 素 , 均 置 报错 标志 。 在 本 书 中 用 空白 
表示 。 


根据 上 述 规则 ,对 上 面 例子 中 文法 的 LR(1) 项 目 集 族 构造 其 相应 的 LR(1) 分 析 表 ,如 
表 6. 10 所 示 。 
表 6.10 LR(1) 分 析 表 


状态 ACTION GOTO 
a b c d e # S A 
0 S: S; 1 
1 acc 
2 S; 4 
3 S, 6 
4 Ss 
5 So rs 
6 Sio 
7 rs Su 
8 n 
9 rs 
10 re 
11 re 


由 表 6. 10 可 以 看 出 ,对 LR(1) 的 归 约 项 目 不 存在 任何 无 效 归 约 。 但 在 多 数 情况 下 , 同 
一 个 文法 的 LR(1) 项 目 集 的 个 数 比 LR(0) 项 目 集 的 个 数 多 ,甚至 可 能 多 好 几 倍 。 这 是 由 于 
同一 个 LR(0) 项 目 集 的 搜索 符 集合 不 同 ,多 个 搜索 符 集合 则 对 应 着 多 个 LR(1) 项 目 集 。 这 
可 以 看 成 是 LR(1) 项 目 集 的 构造 使 某 些 同心 集 进 行 了 分 裂 ,因而 项 目 集 的 个 数 增多 了 。 下 
面 举例 说 明 这 一 概念 。 

车 文法 G' 为 

(0) S 一 S 

(1) S>BB 

(2) B>aB 

(3) B>b 

它 的 LR(1) 项 目 集 族 和 转换 函数 如 图 6. 12 所 示 ,LR(1) 分 析 表 如 表 6. 11 所 示 。 


s 
1:S—S# PH 让 SS 
S—-BB, # 
B—-aB,alb | g 5 
B—b alb HH I:S~BB,# H| 1s: S-BB:,# 
S—aB, # @ 
iD B—b,# |a EY 
L: Bb, alb m| 1: B—aB,# 
i B—-aB, # 
b s 
b r b ity 
h: B>aB, alb | ] 
B--aB, alb T: Bb, # B 
Bb, alb ly: B—aB-, # 
18 
Ix: B—aB., alb 


图 6.12 LR(1) 项 目 集 和 转换 函数 


表 6.11 LR(1) 分 析 表 


ACTION GOTO 

es a b # S B 
0 S; S, 1 2 
1 acc 
2 Ss S, 5 
3 Ss Si 8 
4 rs rs 
5 rn 
6 Ss S, 9 
7 rs 
8 re Tz 
9 re 


只 要 仔细 分 析 该 文法 的 每 个 LR(1) 项 目 集 的 项 目 . 不 难 发 现 ,即使 不 考查 搜索 符 , 它 的 
任何 项 目 集中 都 没有 动作 冲突 ,因此 实际 上 这 个 文法 是 LR(0) 文 法 ,读者 可 以 自己 构造 它 
的 LR(0) 项 目 集 , 可 以 得 知 它 的 LR(0) 分 析 器 只 含 7 个 状态 ,而 现在 LR(1) 分 析 器 却 含 有 
10 个 状态 ,其 中 五 和 天 ,有 和 五 ,和 五 分 别 为 同心 集 。 
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如 果 一 个 文法 的 LR(1) 分 析 表 不 含 多 重 入 口 ( 即 任何 一 个 LR(1) 项 目 集中 无 移 进 - 归 
约 冲突 或 归 约 - 归 约 冲突 ), 则 称 该 文法 为 LR(1) 文 法 ,所 构造 的 相应 分 析 表 称 为 LR(1) 分 析 
表 , 使 用 LR(1) 分 析 表 的 分 析 器 称 为 LR(1) 分 析 器 或 称 规范 的 LR 分 析 器 。 一 个 文法 是 
LR(0) 文 法 ,就 一 定 也 是 SLR(1) 文 法 ,也 是 LR(1) 文 法 ,反之 则 不 一 定 成 立 。 


6.5 LALR(1) 分 析 


LR(1) 分 析 表 的 构造 对 搜索 符 的 计算 方法 比较 确切 ,对 文法 放宽 了 要 求 ,也 就 是 适应 的 
文法 类 广 ,可 以 解决 SLR(1) 方 法 解决 不 了 的 问题 ,但 是 ,由 于 它 的 构造 对 某 些 同心 集 的 分 
裂 可 能 使 状态 数目 引起 剧烈 的 增长 ,从 而 导致 存储 容量 的 急剧 增加 ,因此 使 应 用 受到 一 定 的 
限制 。 为 了 克服 LR(1) 的 这 种 缺点 ,可 以 采用 对 LR(1) 项 目 集 规范 族 合 并 同心 集 的 方法 ， 
若 合 并 同心 集 后 不 产生 新 的 冲突 , 则 为 LALR(1) 项 目 集 , 它 的 状态 个 数 与 LR(0)、SLR(1) 
的 相同 。 

例如 ,分 析 图 6. 12 中 的 项 目 集 , 可 发 现 如 下 同心 集 : 


I;; B>a • B,a/b Is: B>a » B, # 
B> + aB,a/b B> + aB, # 
B> + b,a/b B> +b,# 

I,: B>b • ,a/b 11: Bob: ,# 

Is: B>aB®* ,a/b I: B>aB. ,# 


即 I 和 ,I 和 了 Ti,Is 和 了 分别 为 同心 集 ,将 同心 集合 并 后 为 
Ts,1s: Ba * B,a/b/# 
B> .aB,a/b/# 
B> + b,a/b/# 
I,,1,: Bobs .a/b/# 
Ts,1s: BaBe ,a/b/# 
同心 集合 并 后 仍 不 包含 冲突 ,因此 该 文法 满足 LALR(1) 要 求 。 
合并 同心 集 有 几 个 问题 需要 说 明 。 
(1) 同心 集 是 指 心 相同 的 项 目 集合 并 在 一 起 ,因此 同心 集合 并 后 心 仍 相同 ,只 是 超前 搜 
索 符 集合 为 各 同心 集 超 前 搜索 符 集合 的 和 集 。 
(2) 同心 集 经 转换 函数 所 达 的 项 目 集 仍 为 同心 集 。 因 为 相同 的 心经 转换 函数 所 达 的 心 
仍 相 同 , 即 仍 属 同心 集 , 所 以 合并 同心 集 后 转换 函数 也 自动 合并 。 如 例 中 LA 天 为 同心 集 ， 
它们 的 转换 函数 分 别 为 
I: GOCI ,a)=1, 
GOC; b) =L 
GOC; .B) =I, 
Is: GO( a) =I, 
GOU, sb) =I; 
GOC, +B) =Is 
T BLA LA Iz LA Ty St HI A 
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(3) 若 文法 是 LR(1) 文 法 ,合并 同心 集 后 ,车 有 冲突 也 只 可 能 是 归 约 - 归 约 冲突 ,而 不 可 
能 产生 移 进 - 归 约 冲突 ,不 妨 假 设 某 LR(1) 文 法 的 项 目 集 工 与 1 为 同心 集 ,其 中 : 

LA: (Ama? ,iw] 

[B>B > ay,b] 
LH: [LA 一 ac。，,zz] 
| 
其 中 ww u 分 别 为 超前 搜索 符 集合 。 因 为 假设 文法 是 LR(1) 的 ,所 以 不 可 能 有 移 进 - 归 约 冲 
RK BREE LPA) Nia} =S.4E L PA u) Nia} =D, BRAID a UaU 
DN la) =D. 

(4) 合并 同心 集 后 对 某 些 错误 发 现 的 时 间 会 产生 推迟 现象 ,但 错误 的 出 现 位 置 仍 是 准 
确 的 。 这 意味 着 LALR(1) 分 析 表 比 LR(1) 分 析 表 对 同一 输入 串 的 分 析 可 能 会 有 多 余 归 
约 。 这 个 问题 将 在 后 面 用 例子 来 说 明 。 

现在 介绍 构造 文法 的 LALR(1) 分 析 表 ,对 于 一 个 文法 是 否 为 LALR(1) 文 法 ,通常 所 采 
用 的 方法 是 : 构造 它 的 LR(1) 项 目 集 族 , 若 不 含 任何 冲突 , 则 合并 同心 集 ; 若 仍 不 产生 归 约 - 
归 约 冲突 , 则 该 文法 便 是 LALR(1) 文 法 ,就 可 以 根据 合并 同心 集 后 的 项 目 集 族 构 造 该 文法 
的 LALR(1) 分 析 表 。 其 构造 步骤 如 下 : 

(1) 构造 文法 G 的 LRC1) 项 目 集 族 ,C 一 人 三)}。 

(2) 合并 所 有 的 同心 集 ,使 C BE C= (Jo Ji ott dm} MEE LALRCD AK, 

(3) 据 C 构造 动作 (ACTION) 表 ,其 方法 与 LR(1) 分 析 表 的 构造 相同 。 

O #[A—>a * aß,b]E J, A. GOU,.a)=J; SE ae Vz. WW ACTION[A.a]=s, ,其 
含义 是 把 输入 符号 a 和 状态 j 分 别 移 人 文法 符号 栈 和 状态 栈 。 

© 若 项 目 [A 一 a* ,aj 属 于 本, 则 置 ACTION[k,aj=r; ,其 中 aEVr,rj 的 含义 是 A 一 a 
是 文法 的 第 j 个 产生 式 , 此 时 把 栈 顶 符号 串 a 归 约 为 A。 

图 #UWALS’>S + .# JAF Je WH ACTIONLA, # ]=acc, HAA HT MI HES. 

® GOTO 表 的 构造 。 对 于 不 是 同心 集 的 项 目 集 , 转 换 函 数 的 构造 与 LR(1) 的 相同 ,对 
同心 集 项 目 , 由 于 合并 同心 集 后 ,新 集 的 转换 函数 也 为 同心 集 , 因 此 ,假定 Ti, Ti, ,…,1; 是 同 
心 集 ,合并 后 的 新 集 为 J ,转换 函数 GO(I ,X) GOU, ,X),… GOU, ,X) 也 为 同心 集 , 将 
其 合并 后 记 作 J, Ae, A GOJ OSJ: MAK X HIERA GOJ OSJ: WE 
GOTOLA,X]=;i, 表 示 在 4 状态 下 遇 非 终结 符 X 时 ,把 X 和 fi 分 别 移 到 文法 符号 栈 和 状态 
IR: X 为 终结 符 时 和 ACTION RHF. 

© 分 析 表 中 凡 不 能 用 四 一 四 填 和 人 信息 的 均 填 出 错 标志 。 

用 上 述 步 又 就 可 以 构造 前 面 的 文法 的 LALR(1) 分 析 表 如 下 : I; 和 I 合并 后 用 L, K 
RWLA LAEN 工 .; 表 示 ,1s 和 I, 合并 后 用 1. 表示 。 对 文法 合并 同心 集 后 的 LALR(1) 
分 析 表 如 表 6. 12 所 示 。 

由 于 合并 同心 集 后 ,在 新 的 集合 中 不 含 归 约 - 归 约 冲突 ,所 以 该 文法 是 LALR(1) 文 法 。 
能 用 LALR(1) 分 析 表 进行 语法 分 析 的 分 析 器 称 为 LALR(1) 分 析 器 。 

现在 举例 说 明 由 于 合并 同心 集 可 能 对 某 些 错误 发 现 的 时 间 产 生 推 迟 现象 。 

上 面 所 给 文法 识别 的 句子 集合 是 正规 式 a” ba* 0. 也 就 是 该 文法 可 推出 的 句子 必须 含有 两 
个 5 且 以 5 为 结尾 。 因 而 输入 串 车 为 ab# ,显然 不 是 这 个 文法 能 推出 的 句子 。 但 A LRO) 
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6.12 合并 同心 集 后 的 LALR(1) 分 析 表 
ACTION GOTO 
状 S 

a b = S B 
0 Ss.s Suz I 2 
1 ace 
2 Si. Suz 5 
346 Ss.s Suz 8,9 
4,7 rs rs rs 
5 n 
8,9 T2 r: rz 


分 析 表 分 析 和 用 LALR(1) 分 析 表 分 析 时 发 现 错误 的 时 间 不 同 , 现 将 分 析 步 又 分 别 写 出 


如 下 。 


HK 6. 11 所 示 的 LR(1) 分 析 表 分 析 输 入 串 ab H 的 过 程 如 表 6. 13 所 示 。 


表 6.13 对 输入 串 ab 间 用 LR(1) 分 析 的 过 程 


步 又 RER 符号 栈 输入 串 ACTION GOTO 
1 0 # ab# S: 
2 03 #a b# S; 
3 034 #ab # 出 错 


在 LR(1) 项 目 集 规范 族 中 , 当 分 析 进 入 状态 I 时 ,6b 后 只 能 出 现 a 或 5 而 不 能 出 现 #， 


因而 出 错 。 


而 用 表 6. 12 的 LALR(1) 分 析 表 分 析 同 样 的 输入 串 ab ,分 析 过 程 如 表 6. 14 所 示 。 
表 6.14 对 输入 串 ab 间 用 LALR(1) 分 析 的 过 程 


步 又 状态 栈 符号 栈 输入 串 ACTION GOTO 
1 0 # abs Sse 
2 0(3,6) #a b# Sur 
3 0(3,6)(4,7) #ab # rs (8,9) 
4 0(3,6)(8,9) #aB # re 2 
5 02 +B 并 出 错 


在 LR(1) 分 析 中 工 的 向 前 搜索 符 只 有 {a,5) ,而 由 于 工 ,为 同心 集 , 合 并 同心 集 后 搜 
索 符 的 集合 变 为 {a,b,#), 所 以 集合 扩大 了 ,因而 用 LALR(1) 分 析 表 发 现 错误 的 时 间 也 就 
HET. K 6. 14 对 ab # 的 分 析 进 行 了 两 步 多 余 归 约 , 但 是 发 现 错误 的 位 置 还 是 确切 的 。 
为 了 说 明 LR(1) 分 析 法 强 于 LALR(1) 分 析 法 ,而 LALR(1) 分 析 法 强 于 SLR(1) 分 析 
法 , 现 分 别 举例 如 下 。 
车 有 文法 G1(S') 的 产生 式 如 下 : 
(0) SS 
(1) S+L=R 
(2) S>R 
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(3) L>*R 


(4) L>i 
(5) ROL 
该 文法 的 LR(0) 项 目 集 规范 族 为 
I:S>"S Ís: Lis 
S>+L=R Is: S*L=+R 
S>-+R R>+L 
L>». *R L>-R 
Losi Losi 
R>+L Ir: LOR > 
h: S' 一 S。 Is: ROL + 
In: S*L + =R Is: S*L=R 。 
R>L + 
B: SSR + 
I,; L>+R 
R>+L 
L>+*R 
Losi 


不 难 发 现 ,在 项 目 集 1, 中 存在 移 进项 目 SL + =R 和 归 约 项 目 R 一 L，。 因 此 该 文法 
不 是 LR(0) 文 法 。 再 考察 是 否 能 用 SLR(1) 方 法 解决 ,这 就 要 看 R 的 后 跟 符 集合 中 是 否 包 
= ,由 文法 的 产生 式 规则 可 求 出 FOLLOW(R) = ( #.=). HLA FOLLOW) N (=)= 
{三 ,#} 门 {==) 隆 名 ,因而 在 I 中 存在 的 移 进 - 归 约 冲突 不 能 用 SLR(1) 方 法 解决 ,说 明 该 文 
法 不 是 SLR(1) 文 法 ,因此 ,进一步 构造 它 的 LR(1) 项 目 集 规范 族 ,以 判定 是 否 是 LR(1) 文 
法 或 LALR(1) 文 法 。 

上 述 文法 的 LR(1) 项 目 集 族 及 转换 函数 如 图 6. 13 所 示 。 


1:S'—S.,# Ig: S—L=R-, # Be | 1S—L=R# |, 
Ts fs R—-L,# 
I: S>L=R,# | L>*R,# 
Ig: SS, # 7 Rebe Se 
Sot Ra V] R—L:,# i L>i,# 
S—-R, # R 
L—-*R, =/# | L: SR, # |: * 
L>i,=l# < 
R—-L,# * hil>*R# [i 
ti R>L,# 
i i ; L—-*R, # 
Ls:L—i,=# je i ! Imit 
L—-*R, =/# 
R 
li L*R,=/# aR 
L i. lg: L—*R., # 
Is: R—L-., =/# 1: L—i,# NoR-L,# 上 


6.13 LR(1) 项 目 集 及 转换 函数 
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分 析 所 有 这 些 项 目 集 , 可 以 发 现 每 个 项 目 集中 都 不 含 移 进 - 归 约 冲突 或 归 约 - 归 约 冲突 。 
在 项 目 集 I 中 , 因 归 约 项 目 [R 司 L，,#] 的 搜索 符 为 # , 即 当 前 输入 符 为 # 时 才 用 产生 式 
R 一 L 归 约 , 而 移 进项 目 [LS 一 L， 二 R,#] 的 移 进 符号 为 二 ,所 以 移 进 - 归 约 冲突 由 LR(1) 方 
法 得 到 了 解决 ,也 说 明了 LR(1) 分 析 法 的 功能 比 SLR(1) 分 析 法 的 功能 要 强 , 同 时 也 可 以 发 
WFA, B LA In sA hes A Ds sI A hos CNIR Z EBR TIRER Fh d 
是 相同 的 ,因此 可 以 将 这 些 同心 集合 并 ,合并 同心 集 后 的 项 目 集 分 别 如 下 。 


LA IA 
{L>°R,=/# 
R>-L,=/# 
L>+i,=/# 
L>+R,=/#} 

LA I 为 
{L>i+ ,=/#} 

石和 Lis 
{L>*R+,=/#} 

LA Lio 
{R>L*+ ,=/#} 


进一步 考察 这 些 合并 同心 集 后 的 项 目 集 , 发 现 它 们 仍 不 含 归 约 - 归 约 冲突 ,因此 可 判定 
该 文法 是 LALR(1) 文 法 ,也 是 LR(1) 文 法 ,但 不 是 LR(0) 和 SLR(1) 文 法 。 
相应 的 LALR(1) 分 析 表 如 表 6. 15 所 示 。 
表 6.15 LALR(1) 分 析 表 


ACTION GOTO 
状态 

= * i # S 工 R 
0 Sı Ss 1 2 
1 acc 
2 Ss rs 
3 re 
4 Sy Ss 8 7 
5 rı n 
6 S, S; 8 9 
7 rs rs 
8 rs rs 
9 ri 


下 面 再 给 出 文法 G (SAE LRCG) 文 法 而 不 是 LALR(1) 文 法 的 例子 ,Gs(S ) 的 产生 式 如 下 : 
(0) S'S 
(1) S>aAd 
(2) S>bBd 
(3) S~aBe 
(4) S>bAe 
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(5) Ac 


(6) Boe 
我 们 可 以 直接 构造 它 的 LR(1) 项 目 集 如 下 : 
Ih: S>+S,# I: S*aA+d,# 


S>-+aAd,# Is: SeaBere ,# 
S> + bBd,# Is: A>c* ,d 


S—> + aBe, # Bc°* ,e 
S—> + bAe, # I: S>bB ° d, # 
L: S—>S.,# Is: S~bA+e,# 
I: S>a ° Ad, # I: A>c* se 
S—>a + Be, # Bocs „d 
A> cod Io :S—>aAd + ,# 
Bom *cse In :S~aBe* ,# 


I;; S+b+ Bd, # Iy,:S~bBd + ,# 
S>b+ Ae, # I,3:S~bAe* , # 
B> c,d 
A> *cyse 
检查 每 个 项 目 集 到 可 知 ,在 任 一 项 目 集中 都 不 含 移 进 - 归 约 冲突 或 归 约 - 归 约 冲突 ,因此 
文法 是 LR(1) 的 ,进一步 查看 项 目 集 可 发 现 ,1s 和 I 是 同心 集 : 


Is: Ace d I,; A>c ° ,e 
Bec ,e Bes 这 
若 合并 后 则 变 为 
Iss: A>c * ,d/e 
B—>c * ,e/d 


这 样 就 出 现 了 新 的 归 约 - 归 约 冲突 ,因为 不 管 当前 符号 是 d 或 e, 既 可 用 产生 式 Ac 归 约 ， 
也 可 用 产生 式 B>c 归 约 ,因而 可 判定 该 文法 不 是 LALR(1) 文 法 ,当然 也 不 可 能 是 SLR(1) 
和 LR(0) 文 法 。 


6.6 二 义 性 文法 在 LR 分 析 中 的 应 用 


我 们 已 经 知道 任何 一 个 二 义 性 文法 绝 不 是 LR 类 文法 ,也 不 是 一 个 算 符 优先 文法 或 
LL(k) 文 法 ,任何 一 个 二 义 性 文法 不 存在 与 其 相应 的 确定 的 语法 分 析 器 ,但 是 对 某 些 二 义 性 
文法 ,可 以 人 为 地 给 出 优先 性 和 结合 性 的 规定 ,从 而 可 以 构造 出 比 相应 非 二 义 性 文法 更 优越 
的 LR 分 析 器 。 

例如 ,算术 表达 式 的 二 义 性 文法 为 

E>E+E|E*E|(E)|i 
相应 的 非 二 义 性 文法 可 为 
E>E+T(|T 
T>T*F|F 
F>(E)|i 
现在 构造 算术 表达 式 二 义 性 文法 的 LR(0) 项 目 集 , 用 状态 转换 矩阵 表示 ,如 表 6. 16 所 示 。 
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表 6.16 算术 表达 式 二 义 性 文法 的 LR(0) 项 目 集 及 状态 转换 矩阵 


当前 符号 
十 * ) i # E 
状态 
Ih: k: B: h: 
E>.E E->(+ E) E>i+ EE 
E>* E+E E>» E+E E>E++E 
E>*E*E E>* ExE E>E. *E 
E>» (E) E>» (E) 
E>*i E>*i 
h: L: Is: acc 
E>E++E|E>E* +E 
E>» E+E | E> + E+E 
E>+E*E| E>+E*E 
E>. (ŒE) | E> (Œ) 
下 -~ ii E>+i 
Iz: In: Is: Is: 
E>(E*) 
E>E++E 
E>E+ *E 
In: 
L: h: b: Ths 
E>E+E> 
E>E++E 
E>E+ *E 
I; h: h: Is: 
E>E*E+ 
E>E++E 
E>E+*E 
Is: L: Is: Ty: 
E-(E)+ 
Thi Is Ini 
Te: Ih: Is: 
Ip: 


在 表 6. 16 中 可 以 看 出 ,状态 开 \ 厂 和 下 中 存在 移 进 - 归 约 冲突 ,现在 逐个 分 析 它 们 的 冲 


突 如 何 解决 。 
在 荆 中 , 归 约 项 目 E 一 E:… 实际 上 为 接受 项 目 。 由 于 FOLLOW(E’)={ 


H) ,也 就 是 只 


有 过 到 句子 的 结束 标志 # 才 能 接受 ,因而 与 移 进项 目的 移 进 符号 十 、* 不 会 冲突 ,所 以 可 用 
SLR(1) 方 法 解决 , 即 遇 当 前 输入 符 为 # 时 则 接受 , 遇 十 或 * 时 则 移 进 。 
在 I 和 I 中 ,由 于 归 约 项 目 LE>E 十 E，] 和 [E>Ex*E，] 的 左 部 都 为 非 终 结 符 E. m 


FOLLOW(E)={#.+.* ,)), 而 移 进项 目 均 有 十 和 * ,也 就 存在 
FOLLOW(E) N { +. * } 4D 


AT A Te P HRR RE SLR(1) 的 方法 解决 ,有 兴趣 的 读者 也 可 证 明 该 二 义 性 文法 用 


‘7 
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LR(k) 方 法 仍 不 能 解决 此 冲突 
然而 ,用 优先 关系 和 结 


合 性 可 以 解决 这 类 冲突 ,假如 仍 规定 * 优先 级 高 于 十 , 且 它 们 都 


服从 左 结合 ,那么 在 五 中 ,由 于 * 盖 十 ,所 以 遇 * 移 进 , 又 因 十 服从 左 结合 ,所 以 遇 十 则 用 
在 L.H * > +A * 服从 左 结合 ,因此 不 论 遇 到 十 ,* 或 # 都 应 归 约 ,该 
二 义 性 文法 的 LR 分 析 表 如 表 6. 17 所 示 。 


EE 十 E 归 约 。 


表 6.17 对 表达 式 二 义 性 文法 的 LR 分 析 表 


ACTION GOTO 
状态 
* í ) i # E 
0 S: S; 1 
1 S, Ss ace 
2 S: S; 6 
3 re re ry ry 
4 S: Sı 7 
5 S: S; 8 
6 Sy Ss S, 
7 r S; r r 
8 re re re re 
9 rs rs rs rs 
使 用 表 6. 17 对 表达 式 的 输入 串 iixi# 进行 分 析 的 过 程 如 表 6. 18 所 示 。 
表 6.18 用 二 义 性 文法 的 分 析 表 对 输入 串 i 十 i *i 间 的 分 析 过 和 
步 又 状态 栈 符号 栈 输入 串 ACTION GOTO 
a) 0 # iti*i# S: 
(2) 03 Fi +i*iF rs 1 
(3) 01 #E +i*iF# Si 
(4) 014 #E+ ixi# S; 
(5) 0143 #E+i *i# ne 7 
(6) 0147 #E+E *i# Ss 
(7) 01475 #E+E* i# S3 
(8) 014753 #E+E*i # r4 8 
(9) 014758 #E+E*E # rs 7 
a0) 0147 #E+E # n 1 
a1) 01 #E # ace 


不 难 发 现 ,对 二 义 性 文法 规定 了 优先 关系 和 结合 性 
性 文法 的 LR 分 析 速 度 要 快 一 
节 ) 分 析 少 3 步 ,其 分 析 过 程 见 表 6. 18 和 表 6. 9。 对 于 其 他 的 二 义 性 文法 也 可 用 类 似 的 方 
法 处 理 , 可 能 构造 出 无 冲突 的 LR 分 析 表 。 


后 的 LR 分 析 速 度 比 相应 的 非 二 义 


HE RHA EB iba iF MIR 6.17 比 用 表 6. 8( 见 6. 3 
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1. 已 知 文法 
A—>aAd|aAb|e 
判断 该 文法 是 否 是 SLR 1) NA FE W HE A OP DT R ERT HT AA R ab H 给 出 分 析 
过 程 。 
2. 若 有 定义 二 进 制 数 的 文法 如 下 : 
S=L. LIL 
L—>LB|B 
B>0{1 
C1) 试 为 该 文法 构造 LR 分 析 表 ,并 说 明 属 哪 类 LR 分 析 表 。 
(2) 给 出 输入 串 101. 110 的 分 析 过 程 。 
3. 考虑 文法 
S>AS|b 
A>SA|\a 
(1) 列 出 这 个 文法 的 所 有 LR(0) 项 目 。 
(2) 按 (1) 列 出 的 项 目 构造 识别 这 个 文法 活 前 级 的 NFA, 把 这 个 NFA 确定 化 为 DFA， 
说 明 这 个 DFA 的 所 有 状态 全 体 构成 这 个 文法 的 LR(0) 规 范 族 。 
(3) 这 个 文法 是 SLR(1) 的 吗 ? 若是 ,构造 出 它 的 SLR 分 析 表 。 
(4) 这 个 文法 是 LALR(1) 或 LR(1) 的 吗 ? 
4. 下 面 是 一 个 描述 三 = (ab) 上 的 正规 式 的 LALR(1) 文 法 (实际 上 也 是 SLR(1) 文 
法 ), 只 不 过 用 十 代替 | 。 
E>E+T|T 
T>TF|F 
F>F x | (E) |alb 
构造 这 个 文法 的 LALR(1) 项 目 集 和 分 析 表 。 
5. 一 个 类 ALGOL 的 文法 如 下 : 
(Program) (Block) 
(Program) (Compound Statement) 
(Block) (Block head) ; (Compound Tail) 
(Block head)—>begin d 
(Block head)—< Block head) ;d 
(Compound Tail)—>S end 
(Compound Tail)—>S; (Compound Tail) 
(Compound Statement)—begin(Compound Tail) 
试 构造 其 LR(0) 分 析 表 。 
6. 文法 G=({U,T,S}),{a,b,c,d,e},P,S), 其 中 为 
S>UTalTb 
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T>S|Scld 

U>US |e 
(1) 判断 G 是 LR(0)、SLR(1)、LALR(1) 还 是 LR(1) 的 ,说 明理 由 。 
(2) 构造 相应 的 分 析 表 。 
7. 证 明 下 面 文法 不 是 LR(0) 而 是 SLR). 


S>A 
A—>Ab|bBa 
B—>aAc|a|aAb 
8. 证 明文 法 (其 中 $$ 相当 于 #) 
S>A$ 
A> BaBb|DbDa 
Boe 
D—>e 


是 LR(1) 而 不 是 SLR(1) 的 。 
9. 证 明 下 面 文法 是 LR(1) 而 不 是 LALR(1) 的 。 
S—>Aa |bAe | Be |bBa 
A>d 
Bod 
10. 判断 下 列 6 个 文法 是 否 为 LR 类 文法 ,若是 ,请 说 明 是 LR(0)、SLR(1)、LALR(1) 
或 LR(1) 的 哪 一 种 ,并 构造 相应 的 分 析 表 ; 若 不 是 ,请 说 明理 由 。 
(1) S>AB 
A—>aBa |e 
B—>bAb|e 
(2) S>D;B|B 
D>d|e 
B-B;alale 
(3) SaAd |eBd|aBr\eAr 
Aa 
B>a 
(4) A>AbBa| B 
Bale 
(5) A>aBle 
B>Ab\a 
(6) S>(SRla 
R—. SR|) 
11. 设 文法 GLS]A 
SASle 
A—>aA|b 
(1) 证 明 GCS] LR(1) 文 法 。 
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(2) 构造 它 的 LR(1) 分 析 表 。 
G) 给 出 输入 符号 串 abab # 的 分 析 过 程 。 
12. 证 明 任 何 SLR(1) 文 法 都 是 LR(1) 文 法 。 
13. 证 明 任何 SLR(1) 文 法 都 是 LALR(1) 文 法 。 
14. 一 个 文法 若是 SLR(1) 文 法 ,那么 它 的 SLR(1) 和 LALR(1) 识 别 活 前 级 的 DFA 的 
状态 数目 相同 ,但 LALR(1) 对 一 些 错误 的 发 现 可 能 比 SLR(1) 要 早 。 请 说 明理 由 。 
15. 已 知 文法 为 : 
Sal AID) 
T>T,S|S 
(1) 构造 它 的 LR(0)、LALR(1) 和 LR(1) 分 析 表 。 
(2) 给 出 对 输入 符号 串 (e# 和 (aa# 的 分 析 过 程 。 
(3) 说 明 (1) 中 3 种 分 析 表 发 现 错误 的 时 刻 和 输入 串 的 出 错位 置 有 何 区 别 。 
16. 给 定 文法 : 
S—>do S or S| do S|S;Slact 
(1) 构造 识别 该 文法 活 前 级 的 DFA。 
(2) 该 文法 是 LR(0) 的 吗 ? 是 SLR(1) 的 吗 ? 说 明理 由 。 
(3) 车 对 一 些 终 结 符 的 优先 级 以 及 算 符 的 结合 规则 规定 如 下 : 
O or 优先 性 大 于 do. 
@ ;服从 左 结合 。 
@ ;优先 性 大 于 do. 
® ;优先 性 大 于 or。 
请 构造 该 文法 的 LR 分 析 表 。 


17. 已 知 某 文法 GCS] 的 LALR(1) 分 析 表 如 表 6. 19 所 示 。 
表 6.19 对 表达 式 二 义 性 文法 的 LR 分 析 表 
RE ACTION GOTO 
a t g é # S 
0 Su Ss S 1 
1 S: acc 
2 S; 
3 Sn Ss Sı 16 
4 Ss 
5 Ss 
6 S, 
7 n n n 
8 Sy 
9 Sto 
10 Su Ss Sı 14 
11 Su Ss Sı 12 
12 Sis S: 
13 Su Ss S, 15 
14 re S: fi 
15 T2 S: rz 
16 rs Sz rs 


并 且 已 知 各 规则 右边 语法 符号 的 个 数 以 及 左边 的 非 终 结 符 如 下 : 


规则 编号 1 2 3 4 
右 部 长 度 4 4 4 4 
左 部 符号 Ss 5 $ S 


写 出 使 用 上 述 LALR(1) 分 析 器 分 析 下 面 的 串 的 过 程 ( 只 需 写 出 前 10 步 , 列 出 所 有 可 能 

的 ri,s; 序列 ,注意 先后 次 序 ) : 
acaaccgtgcecaacgatgccaa*** 

18. 给 定 如 下 文法 G[S]: 

Sif S else S 

SiS 

S—x 

为 文法 GES] 增加 产生 式 S'S ,得 到 增 广 文法 G'[S], 下 图 是 相应 的 LR(0) 项 目 集 和 
识别 活 前 级 的 DFA(i 表示 if,e 表示 else) : 


I S I: Ig: 
s>s | s-s. Si.SeS. 
S>iSeS 
S>iS 
S>.a a 5 
I: 
EL Sa, & 
y, Is: 
S>iSe.S 

T: Ty: Pa S->.iSeS 
S->i.SeS S_ | Ss>ises S->.iS 
SiS Sis. Sa 
S>iSeS 
S>iS 
S>.a = 


(1) 指出 该 DFA 中 的 全 部 冲突 状态 及 其 冲突 类 型 ,以 说 明文 法 GLS] 不 是 LR(0) 文 法 。 

(2) 文法 GLS] 也 不 是 SLR(1) 文 法 。 为 什么 ? 

(3) 给 出 文法 GLS] 的 LR(1) 项 目 集 和 相应 的 DFA, 

(4) 指出 (3) 中 DFA 的 全 部 冲突 状态 ,以 说 明文 法 GLS] 也 不 是 LR(1) 文 法 。 

(5) 若 规定 else 优先 匹配 左边 靠近 它 的 未 匹配 的 计 , 则 可 以 解决 上 述 两 个 DFA 中 的 状 
态 冲突 。 试 给 出 文法 GLS] 在 规定 这 一 规则 情况 下 的 SLR(1) 分 析 表 和 LR(1) 分 析 表 。 

(6) 对 于 文法 GLS] 中 正确 的 句子 ,基于 (5) 中 两 个 分 析 表 均 可 以 成 功 进行 LR 分 析 。 
然而 ,对 于 不 属于 文法 GLS] 中 的 句子 ,两 种 分 析 过 程 发 现 错误 的 速度 不 同 , 即 发 现 错误 时 所 
经 过 的 移 进 - 归 约 总 步 数 有 差异 。 试 给 出 一 个 长 度 不 超过 10 的 句子 ( 即 所 包含 的 终结 符 个 
数 不 超 过 10) ,使 得 两 种 分 析 过 程 发 现 错误 的 速度 不 同 。 哪 一 个 更 快 ? 对 于 你 给 的 例子 ,两 
种 分 析 过 程 分 别 到 达 哪 个 状态 时 会 发 现 错误 ? 
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第 7 章 语法 制导 的 语义 计算 


对 于 词法 和 语法 正确 的 源 程序 ,编译 程序 就 可 以 对 它 进 行 语义 分 析 。 在 语义 分 析 阶 段 ， 
首先 是 收集 或 计算 源 程序 的 上 下 文 相关 信息 ,并 将 这 些 信息 分 配 到 相应 的 程序 单元 记录 下 
来 。 在 这 一 过 程 中 ,车 发 现 程序 存在 静态 一 致 性 或 完整 性 方面 的 问题 , 则 报告 静态 语义 错 
误 ; 若 不 存在 静态 一 致 性 或 完整 性 方面 的 问题 , 则 称 该 程序 通过 了 静态 语义 检查 。 语 义 分 
析 过 程 中 与 静态 语义 检查 相关 的 部 分 称 为 静态 语义 分 析 。 对 于 已 通过 静态 语义 检查 的 程 
序 ,编译 程序 可 将 其 翻译 到 后 续 的 中 间 表 示 形 式 , 即 中 间 代码 生成 。 中 间 代 码 生成 的 过 程 体 
现 了 如 何在 更 低 的 级 别 诠释 程序 的 动态 语义 。 关 于 静态 语义 分 析 和 中 间 代 码 生成 ,可 参阅 
第 8 章 内 容 。 

在 编译 程序 的 实现 中 ,一 种 经 典 的 方法 是 由 语法 分 析 程 序 的 分 析 过 程 来 主导 语义 分 析 
以 及 翻译 的 过 程 ,本 书 将 其 称 为 语法 制导 的 语义 计算 。 在 编译 方面 的 许多 书籍 中 也 称 其 为 
语法 制导 的 翻译 。 对 于 特定 的 翻译 遍 , 比 如 第 8 章 的 静态 语义 分 析 与 中 间 代码 生成 , 则 可 以 
相应 地 称 其 为 语法 制导 的 静态 语义 分 析 和 语法 制导 的 中 间 代 码 生 成 。 

为 描述 完成 什么 样 的 语义 计算 ,需要 在 语法 定义 的 基础 上 建立 适当 的 语义 计算 模型 。 
如 果 语 法 定义 采用 上 下 文 无 关 文 法 , 则 建立 这 种 语义 计算 模型 的 基本 途径 是 对 上 下 文 无 关 
文法 进行 扩展 ,为 文法 符号 附加 语义 信息 ,并 针对 产生 式 设计 适当 的 语义 动作 ,以 便 告 诉 分 
析 引 擎 在 语法 分 析 过 程 中 可 以 执行 的 语义 动作 。 

本 章 介绍 两 种 重要 的 语义 计算 模型 : 属性 文法 和 翻译 模式 。 属 性 文法 是 一 种 基本 的 语 
义 计算 模型 ,适用 于 对 一 般 原理 的 理解 ; 而 翻译 模式 是 面向 实现 的 语义 计算 模型 ,有 助 于 理 
解 语法 制导 的 语义 计算 程序 的 自动 构造 方法 (比如 yace 工具 的 工作 原理 ) 。 

本 章 的 最 后 简要 介绍 了 语法 分 析 / 语 义 计算 程序 的 构造 工具 yace, 使 读者 初步 了 解 
yacc 工具 的 使 用 ,同时 加 深 对 基本 原理 的 理解 。 


7.1 基于 属性 文法 的 语义 计算 


7.1.1 属性 文法 
7.1.1.1 基本 概念 和 术语 


属性 文法 的 理论 体系 较为 复杂 ,由 于 本 书 仅 将 其 作为 描述 语义 计算 的 工具 ,所 以 不 从 理 
论 研究 的 视角 出 发 ,而 是 从 实际 应 用 的 角度 对 其 进行 非 形式 化 的 介绍 。 首 先 通过 例子 来 引 
入 与 属性 文法 相关 的 基本 概念 和 术语 。 
考虑 {a, b,c)} 上 的 语言 二 {a"b"e"|n 之 1)。 可 以 证 明 59: 工 不 是 任何 上 下 文 无 关 文 法 
的 语言 。 设 有 如 下 文法 G [S]: 
SABC 
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A>Aala 

B>Bb\|b 

C>Ccle 

Fy IX— SK WIB A L(G) =L(a* b* ct), XE at =aa* bt Ailc* KW, BRA LE 
L(G). 

如 果 对 G [LS] 附 加 某 种 限定 条 件 ,使 其 只 产生 满足 这 一 限定 条 件 的 字符 串 , 则 可 能 接受 
语言 工 。 这 一 想法 可 以 通过 属性 文法 来 实现 。 

在 文法 G [S] 基 础 上 ,为 文法 符号 关联 有 特定 意义 的 属性 ,并 为 产生 式 关 联 相应 的 语义 
动作 或 条 件 谓 词 , 称 之 为 属性 文法 ,并 称 文法 G LS] 是 这 一 属性 文法 的 基础 文法 。 以 下 是 基 
F G [LS] 的 一 个 属性 文法 : 

SABC {(A. num=B. num) and (B. num=C. num) } 

A>A\a {A. num :=Ai. num+1} 


A>a {A. num :一 1} 
B>B,b {B. num :一 Bi.num 十 1} 
Bob {B. num :=1} 
C>C\c {C. num *=C,. num+1} 
Cc {C. num :=1} 


SCH FF AS AY JR PE T JH AG A m GFK SC HI EAS DE A AE AT REE EA AS AA VEL 4 SEB 
类 型 . 偏 移 地 址 .代码 片段 等 。 设 文法 符号 X 关联 一 个 属性 a ,我 们 用 X.a 来 表示 对 这 个 属 
性 的 访问 。 例 如 ,在 上 述 属 性 文法 中 ,A. num 表示 对 文法 符号 A 所 关联 属性 num 的 访问 。 

这 里 要 注意 的 是 ,为 了 明确 指出 一 个 属性 值 对 应 于 当前 产生 式 中 哪个 位 置 的 文法 符号 ， 
在 书写 同一 个 文法 符号 时 ,会 用 到 文法 符号 的 下 标 形式 。 例 如 ,在 以 上 属性 文法 的 第 二 条 产 
生 式 中 ,A BLA, 分 别 表示 出 现 于 不 同位 置 的 文法 符号 A。 对 于 同一 个 属性 num, 它 们 相应 
的 属性 值 分 别 用 A. num 和 Ay. num 来 访问 。 

在 属性 文法 中 ,每 个 产生 式 Aa 都 关联 一 个 语义 计算 规则 的 集合 ,如 上 面 例子 中 花 括 
号 内 的 部 分 。 每 个 语义 计算 规则 或 者 是 一 个 语义 动作 ,或 者 是 一 个 条 件 谓 词 。 本 书 中 ,将 语 
义 动 作 的 一 般 形 式 表示 为 

b= fers Costes Ce) 

其 中 ,6, ci, Contes cx 对 应 产生 式 中 某 些 文法 符号 的 属性 。/ 是 用 于 描述 如 何 计算 属性 值 
的 函数 ,或 称 为 语义 函数 。 

语义 动作 也 可 以 只 包含 一 个 语义 函数 , 形 如 

Jrcl，csy， cy) 


另外 , 形 如 X.a =Y. b 的 语义 动作 称 为 复写 规则 。 后 面 将 会 看 到 ,复写 规则 对 于 语义 


计算 程序 的 构造 有 独特 的 作用 。 
在 具体 应 用 中 ,语义 函数 可 以 通过 实际 的 代码 片段 来 实现 ,但 一 般 不 要 有 副作用 ,和 否则 
会 使 语义 计算 复杂 化 。 


上 面 例子 中 的 (A. num=B. num)and(B. num=C. num) 是 一 个 条 件 谓词 .表示 由 当前 
属性 的 取 值 所 决定 的 一 个 限定 条 件 。 
对 于 给 定 的 属性 文法 ,在 基于 语法 分 析 过 程 进 行 语义 计算 时 ,使 用 某 个 产生 式 完成 一 步 
。161。 


分 析 时 将 执行 相应 的 语义 动作 ,但 其 前 提 是 必须 满足 相应 的 条 件 谓 词 。 
通过 以 上 解释 或 后 续 内 容 的 学 习 , 不 难 理解 ,上 述 属 性 文法 可 以 接受 的 语言 是 工 == 
{a"b"c"|n=1}. 
由 于 在 目前 较 实用 的 语法 制导 的 语义 计算 程序 构造 工具 中 很 少 有 相应 的 支持 ,所 以 本 
书 不 讨论 包含 条 件 谓词 的 属性 文法 。 在 实际 应 用 中 ,可 以 采取 提示 信息 或 其 他 方式 达到 同 
样 的 语义 计算 效果 。 
例 7.1 对 于 语言 L=={a"%b"e"|n 宇 1) ,可 以 设计 如 下 属性 文法 作为 语义 计算 模型 ; 
S 一 ABC {if(A. num=B. num) and (B. num=C. num) 
then print("Accepted!" ) 
else print("Refused!") } 
A>Aja {A. num :=Ai. num+1} 


A>a {A. num ?=1} 
B>B,b {B. num *=B,. num+1} 
Bob {B. num :一 1)} 
C>C\c {C. num *=C,. num+1} 
Cc {C. num :=1} 


对 于 该 属性 文法 , 若 输入 串 属于 工 , 则 语义 计算 结果 会 执行 print("Accepted!") ,否则 
将 会 执行 print ("Refused!")。 当 然 , 如 果 输 入 串 不 属于 正规 式 aa* bb* cc* 所 表示 的 串 , 那 
么 就 会 报告 语法 错误 。 


7.1.1.2 综合 属性 和 继承 属性 


对 关联 于 产生 式 Aa 的 语义 动作 0 := fers costes Ce) WR OE A 的 某 个 属性 ， 则 
Po FEA 的 一 个 综合 属性 。 从 分 析 树 的 角度 来 看 ,由 于 计算 综合 属性 是 对 父 结 点 的 属性 赋 
值 ,所 以 是 自 底 向 上 传递 信息 。 

对 关联 于 产生 式 Aa 的 语义 动作 0 :三 fa， cast ca) ,如果 5b 是 产生 式 右 部 某 个 文 
法 符号 X 的 某 个 属性 , 则 称 b 是 文法 符号 X 的 一 个 继承 属性 。 从 分 析 树 的 角度 来 看 ,由 于 
计算 继承 属性 是 对 子 结 点 的 属性 赋值 ,所 以 是 自 顶 向 下 传递 信息 。 

在 例 7.1 的 属性 文法 例子 中 ,文法 符号 A、B 和 C 的 属性 num 都 是 综合 属性 。 图 7. 1(a) 
是 针对 输入 串 aaabbbccc 的 一 棵 分 析 树 。 对 此 分 析 树 进行 自 底 向 上 (后 序 ) 遍 历 , 并 执行 关 
联 于 相应 产生 式 的 语义 动作 ,得 到 针对 该 输入 串 的 一 个 语义 计算 过 程 , 如 图 7.1(b) 所 示 。 

再 看 一 个 含有 继承 属性 的 属性 文法 。 

例 7.2 对 于 语言 L=={a"b"e"|n 宇 1) ,还 可 以 设计 一 个 含有 继承 属性 的 属性 文法 作为 
语义 计算 模型 (开始 符号 为 S): 

S 一 ABC {B.in_num :=A. num; C.in_num :=A. num; 

if (B.num=0 and (C.num=0)) 
then print("Accepted!") 
else print("Refused!") } 
A>A,a {A. num ?=A,. num+1} 
A>a {A. num :一 1} 


S. print("Accepted!") 


Cc A.num: 3 B.num: 3 C.num: 3 
| YA I / 
b Ç è Anum:2 a B.num:2 b Cnuml ¢ 
AN | > ga 
A i b C e Anum:1 a B.num: 1 b C.num: 1 c 
| b l | 
(a) (b) 
图 7.1 综合 属性 的 计算 : 自 底 向 上 传递 信息 
B>B, b {Bi.in num :一 B.in_ num; B. num ?=B,. num—1} 
Bob {B. num :一 B.in num 一 1} 
C= e {Ci. in_num *=C, in_num; C. num =C. num— 1} 
Ce {C. num *=C, in_num—1} 


这 个 属性 文法 既 包 含 综合 属性 ,又 包含 继承 属性 。 其 中 ,A. num, B. num 和 C, num 是 
综合 属性 ,而 B.in_num 和 C. in_num 是 继承 属性 。 

同 例 7. 1, 对 于 该 属性 文法 , 当 输入 串 属于 工 , 则 语义 计算 结果 会 执行 print("Accepted!")， 
否则 将 会 执行 print ("Refused!") 。 如 果 输 入 串 不 属于 正规 式 aa* bb* cct 所 表示 的 串 ,那么 
就 会 报告 语法 错误 。 

在 图 7. 1(a) 的 分 析 树 基础 上 ,对 于 综合 属性 值 进行 自 底 向 上 计算 ,而 对 于 继承 属性 值 
进行 自 顶 向 下 计算 ,得 到 输入 串 aaabbbece 的 一 个 语义 计算 过 程 ,如 图 7.2 所 示 。 


print("Accepted!") 


A.num: 3 Bin num:3 B.num:0 Cin num:3 C.num: 0 
Anum:2 a B.in_num:3 .num: 1 b Cin num: Cnum: | č 
4num:1 a Bin num:3 B.num:2 b Cin num:3 C.num: 2 ë 
a b 


图 7.2 继承 属性 的 计算 : 自 顶 向 下 传递 信息 


下 面 看 一 个 更 复杂 的 例子 。 
例 7.3 以 下 属性 文法 可 用 于 将 二 进 制 无 符号 小 数 转 化 为 十 进 制 小 数 ( 开 始 符号 为 N): 
N>Sı. S: {N.v :一 Si.o 十 S:.ui Si. f :=1; S:. 丰 :一 2 人 


S>S,B {S,. f *=2S. f; B. f :=S. f; S.v*=S,. ut B. v; S.l :+=S,. 1+1} 
S>B {S.l :=1; S.v:=B.v; B. f :=S. f} 
B>0 {B. v :=0} 
B>1 {B. v?=B. f} 
其 中 ,各 个 属性 具有 如 下 含义 : 


。 符号 N 的 综合 属性 v 表示 十 进 制 小 数 形式 的 转化 结果 。 
。 符号 S 的 综合 属性 v 表示 二 进 制 整数 或 定点 小 数 (小数点 之 后 的 二 进 制 数 ) 对 应 的 
十 进 制 数值 。 
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符号 S 的 综合 属性 1 表示 二 进 制 整数 或 定点 小 数 的 0、1 串 长 度 。 
符号 S 的 继承 属性 了 表示 S 推导 的 0、1 串 中 最 末 一 位 为 1 时 应 该 对 应 的 十 进 制 数 
值 。 从 属性 文法 的 第 一 行 中 的 Si. f= 1 和 第 二 行 中 的 S1. 了 :==2S. 了 可知: 小 数 
点 前 第 一 位 数 为 1 时 ,对 应 的 十 进 制 数值 为 2° = 15 小 数 点 前 第 二 位 数 为 1 时 ,对 应 
的 十 进 制 数值 为 2 一 2; 小 数 点 前 第 三 位 数 为 1 时 ,对 应 的 十 进 制 数值 为 2 二 4, 等 
等 。 从 属性 文法 的 第 一 行 中 的 S;. 三 :一 2 和 第 二 行 中 的 S. 太 :一 2S. 三 可 知 : 小 
数 点 后 第 一 位 数 为 1 时 ,对 应 的 十 进 制 数 值 为 2 = 0. 5; 小 数 点 后 第 二 位 数 为 1 
时 ,对 应 的 十 进 制 数值 为 2“ 一 0.25; 小 数 点 后 第 三 位 数 为 1 时 ,对 应 的 十 进 制 数值 
为 2 一 一 0.125 ,等 等 。 
符号 B 的 综合 属性 v 表示 二 进 制 数 的 当前 一 位 数字 (0 或 1) 对 应 的 十 进 制 数 值 。 
符号 B 的 继承 属性 了 表示 二 进 制 数 的 当前 一 位 数字 是 1 时 应 该 对 应 的 十 进 制 数值 。 
含义 类 似 于 符号 S 的 继承 属性 f 

基于 该 属性 文法 进行 语义 计算 的 过 程 比 起 前 面 两 个 例子 要 复杂 一 些 , 各 个 属性 之 间 有 
比较 复杂 的 依赖 关系 。 在 7. 1. 2 节 里 ,将 以 这 一 属性 文法 为 例 来 介绍 一 种 通用 的 方法 一 一 
遍历 分 析 树 进行 语义 计算 。 


7.1.2 遍历 分 析 树 进 行 语义 计算 


基于 属性 文法 ,通过 遍历 分 析 树 进行 语义 计算 可 以 采取 下 列 步骤 

(1) 构造 输入 串 的 语法 分 析 树 。 

(2) 构造 依赖 图 。 

(3) 若 该 依赖 图 是 无 圈 的 , 则 按 此 无 圈 图 的 一 种 拓扑 排序 对 分 析 树 进行 遍历 ,从 而 计算 
所 有 的 属性 值 。 若 依赖 图 含有 圈 , 则 这 一 步骤 失效 。 

这 里 ,依赖 图 是 一 个 有 向 图 ,用 来 描述 分 析 树 中 的 属性 与 属性 之 间 的 相互 依赖 关系 。 
图 7. 3 描述 了 构造 依赖 图 的 一 般 过 程 。 


for 分 析 树 中 每 一 个 结 点 n do 
for A n 所 用 产生 式 的 语义 动作 中 涉及 的 每 一 个 属性 a。 do 
为 a 在 依赖 图 中 建立 一 个 结 点 ; 
for 结 点 n 所 用 产生 式 中 每 个 形 如 (el ,c:,… ,ec ) 的 语义 动作 do 
为 该 规则 在 依赖 图 中 也 建立 一 个 结 点 ( 称 为 虚 结 点 ); 
for 分 析 树 中 每 一 个 结 点 do 
for 结 点 n 所 用 产生 式 对 应 的 每 个 语义 动作 b = f Ce sesse) do 
(可 以 只 是 fle ,es，…,cx), 此 时 结 点 5 为 一 个 虚 结 点 ) 
for it=ltok do 
从 结 点 c; 到 结 点 b 构造 一 条 有 向 边 


图 7.3 构造 依赖 图 的 一 般 过 程 
例 7.4 对 于 例 7.3 的 属性 文法 ,考虑 针对 输入 串 10. 01 的 语义 计算 过 程 。 首 先 ,基于 
输入 串 10. 01 的 分 析 树 ,根据 图 7. 3 描述 的 方法 构造 依赖 图 。 为 分 析 树 中 所 有 结 点 的 每 个 
属性 建立 一 个 依赖 图 中 的 结 点 ,并 给 定 一 个 标记 序号 。 结 果 ,该 依赖 图 共有 21 个 结 点 ,分别 
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标记 为 1 一 21, 如 图 7.4 所 示 。 依 赖 图 中 的 有 向 边 如 图 7.5 所 示 。 


A:v 
ef 13j7 
1 
| I 
: i i 1--->S<---l4:v 
Pao Mos 
SB R16 和 =-207 
A re \ N, 
PER jy Tv ia [any 


| ss 0 他、 
18: f | 19: v 
0 


图 7.4 依赖 图 的 结 点 


图 7.5 依赖 图 的 有 向 边 


然后 ,可 以 判定 ,图 7. 5 中 描述 的 依赖 图 是 无 圈 的 。 接 着 ,可 以 按 这 个 有 向 无 圈 图 结 点 
的 任何 一 种 拓扑 排序 来 计算 所 有 的 属性 值 。 例 如 ,以 下 结 点 序列 为 一 种 拓扑 排序 : 
3,5,2,6,10,8,9,7,11,4,15,12,13,16,20,18,21,19,17,14,1 
按照 这 一 次 序 依 次 计算 各 结 点 对 应 的 属性 值 ,可 以 得 到 如 图 7.6 所 示 的 结果 ,其 中 每 个 
结 点 对 应 的 属性 取 值 在 离 该 结 点 名 称 最 近 的 方 框 内 给 出 。 


ay] N 13:f [0.25 


i} 1 
2 Pan ee ‘ 
1 oe. a l 2 ra 


N N, ý = 
iy th fo 05 | 7 
2 aaa A ae or | N21:v[025 


9:v| 2 g 
1 0 


图 7.6 计算 依赖 图 中 各 结 点 对 应 的 属性 取 值 


语法 分 析 树 中 各 结 点 属性 取 值 的 计算 过 程 被 称 为 对 语法 分 析 树 进行 标注 。 可 以 用 带 标 
注 语法 分 析 树 表示 属性 的 计算 结果 。 例 如 ,图 7.6 中 的 计算 结果 可 以 表示 为 图 7.7 中 的 带 
标注 语法 分 析 树 。 
虽然 通过 遍历 分 析 树 进行 属性 计算 的 方法 有 一 定 的 通用 性 ,但 它 是 在 语法 分 析 遍 之 后 
进行 的 ,不 能 体现 语法 制导 方法 的 优势 。 在 实际 的 编译 程序 中 ,语法 制导 的 语义 计算 大 都 采 
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图 7.7 带 标注 语法 分 析 树 


取 单 遍 的 过 程 , 即 语法 分 析 过 程 的 同时 就 完成 相应 的 语义 动作 。 这 样 , 属 性 计算 仅 对 应 一 个 
自 项 向 下 或 自 底 向 上 的 简单 过 程 。 然 而 ,并 非 所 有 属性 文法 都 适合 单 遍 的 处 理 过 程 ,所 以 在 
实践 中 一 般 会 要 求 对 属性 文法 进行 某 种 限制 。 下 面 主 要 讨论 两 类 受 限 的 属性 文法 , 即 S 属 
性 文法 和 三- 属性 文法 。 


7.1.3 S- 属 性 文法 和 工 -属性 文法 


只 包含 综合 属性 的 属性 文法 称 为 S- 属 性 文法 。 

一 个 属性 文法 称 为 L- 属 性 文法 ,如 果 对 其 中 每 一 个 产生 式 A 一 Xi X,… X, ,其 每 个 语 
义 动作 所 涉及 的 属性 或 者 是 综合 属性 ,或 者 是 某 个 X;(1<i<n) 的 继承 属性 ,而 这 个 继承 属 
性 只 能 依赖 于 : 

(1) Xi 左边 的 符号 XX1 ,Xs，,… Xim IRE: 

(2) A 的 继承 属性 。 

通俗 地 说 ,二 属性 文法 既 可 以 包含 综合 属性 ,也 可 以 包含 继承 属性 ,但 要 求 产 生 式 右 端 
某 文法 符号 的 继承 属性 的 计算 只 取决 于 该 符号 左边 符号 的 属性 (对 于 产生 式 左 部 的 符号 ， 
只 能 是 继承 属性 ) 。 

容易 看 出 ,S- 属 性 文法 是 L- 属 性 文法 的 一 个 特例 。 


7.1.4 基于 S- 属 性 文法 的 语义 计算 


由 于 综合 属性 是 自 底 向 上 传递 信息 ,因而 基于 S- 属 性 文法 的 语义 计算 通常 采用 自 底 向 
上 的 方式 进行 。 

若 S- 属 性 文法 的 基础 文法 可 以 采用 LR 分 析 技 术 进 行 语法 分 析 , 那 么 就 可 以 通过 扩充 
分 析 栈 中 的 域 ,形成 语义 栈 来 存放 综合 属性 的 当前 取 值 ,使 得 分 析 引 擎 在 每 一 步 归 约 发 生 之 
前 的 时 刻 启动 并 完成 产生 式 左 部 文法 符号 综合 属性 值 的 计算 。 附 加 了 语义 栈 的 LR 分 析 模 
型 如 图 7.8 所 示 ,其 中 假设 初始 状态 下 状态 栈 、 符 号 栈 和 语义 栈 中 的 内 容 为 S HA. H 
义 栈 中 存放 的 是 符号 栈 中 同一 位 置 符号 的 综合 属性 值 。 若 该 符号 有 多 个 属性 ,可 以 对 应 多 
元 组 的 形式 来 描述 。 分 析 引 擎 在 访问 产生 式 的 同时 需要 执行 相应 的 语义 动作 。 

在 采用 LR 分 析 技 术 进 行 基于 S- 属 性 文法 的 语义 计算 时 ,语义 动作 中 的 综合 属性 总 是 
可 以 通过 存在 于 当前 语义 栈 顶 部 的 属性 值 进行 计算 。 例 如 ,假设 有 相应 于 产生 式 A 一 XYZ 
的 语义 动作 

A.a:=/f(X.x, Y.y, Z.z) 
在 XYZ 归 约 为 A ZNZ. zY. y 和 X.z 分 别 存 放 于 语义 栈 的 top、top 一 1 和 top 一 2 的 相 
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分 析 栈 Input# 
top —= S, | Xp | Yn | | 
|: | = iH 分 析 引 擎 = Output 


加 
AE 
Se mm 产生 式 (全 语义 动作 ) 表 
图 7.8 附加 语义 栈 的 LR 分 析 模型 


应 域 中 (top 指向 栈 顶 位 置 ) ,因此 A. a 可 以 顺利 求 出 。 归 约 之 后 ,Z. = Y.y 和 X.z 被 弹出 ， 
而 在 新 的 栈 顶 位 置 ( 原 top 一 2 的 位 置 ) 上 存放 A.a。 
例 7.5 给 定 一 个 简单 表达 式 求 值 属性 文法 (开始 符号 为 S) : 


S>E {print(E. val) } 
E>E,+T {E. val *=E,. val+T. val} 
E=T {E. val :=T. val} 

TT, *F {T. val :=T,. val X F. val} 
T>F {T. val :=F. val} 
F>(E) {F. val :=E. val} 

F>d {F. val :一 d. lexval} 


其 中 ,d. lexval 是 由 词法 分 析 程 序 所 确定 的 属性 ,F. val, T. val 和 E. val 都 是 综合 属性 ,语义 
函数 print(E. val) 用 于 显示 E. val 的 结果 值 。 

对 于 该 属性 文法 的 基础 文法 ,可 构造 一 个 如 图 7. 9 所 示 的 LR 分 析 表 。 基 于 这 一 LR 
分 析 表 进行 自 底 向 上 分 析 , 每 一 步 归 约 的 同时 执行 相应 的 语义 动作 。 试 给 出 以 常量 表达 式 
2 十 3* 5 为 输入 串 的 分 析 过 程 中 ,并 通过 语义 栈 体现 2 十 3 * 5 的 求 值 过 程 。 


状态 ACTION GOTO 
d * + ( ) # E T F 

0 S; S, 1 2 3 
1 Ss ace 
2 S, re re re 
3 rs rs re rs 
4 S; S, 8 2 3 
5 re re re re 
6 Ss S, 9 3 
7 Ss S, 10 
8 Ss Sn 
9 S, n n n 

10 Ta rs Ta Ta 

11 rs rs rs rs 


图 7.9 一 个 LR 分 析 表 
+ 167 + 


解 : 把 分 析 栈 的 元 素 用 三 元 组 形式 表示 ,分 别 记 录 状 态 栈 , 符 号 栈 和 语义 栈 的 内 容 。 
图 7. 10 描述 了 基于 图 7.9 中 LR 分 析 表 的 自 底 向 上 分 析 步 又 ,可 以 同时 体现 2 十 3 * 5 作为 输入 
串 的 分 析 过 程 和 语义 计算 过 程 ( 即 简单 表达 式 的 求 值 过 程 )。 符 号 “一 表示 未 定义 的 语义 值 。 


步骤 分 析 栈 (状态 ,符号 ,语义 值 ) RAGES | 分 析 动 作 语义 动作 

o |o- 2+3*5# | S 

1 |o#— 522 十 3*5## Te F. val :=d. lexval 

2 |0#—3F2 +3*5# rs T. val :=F. val 

3 |o#—2T2 +3*5# re E. val :=T. val 

4 |o# 一 1E2 二 3x5# | S 

5 a 6 十 一 3x5# | S 

6 | O#—1E26+—533 *5# re F. val :=d. lexval 

7 merece E *5# T T. val :=F. val 

8 | O#-1E26+—9T3 *5# S, 

9 |O#-—1E26 +4 9T37 * 5# S; 

lo |0o#—1E26+-9T37»+ —555 # re F. val +=d. lexval 

11 |o#-—1E26+—9T37* —10F5 # rs T. val *=T,. val F, val 
12 | o# 一 1E26 十 一 9T15 # | on | Eval =E. val+T. val 
13 |0#—1E17 # acc print(E. val) 


图 7.10 LR 分 析 过 程 中 同时 进行 语义 计算 


7.1.5 基于 二 -属性 文法 的 语义 计算 


对 于 三 -属性 文法 ,可 以 采用 自 项 向 下 深度 优先 从 左 至 右 遍 历 分 析 树 的 方法 计算 所 有 属 
性 值 。 图 7. 11 描述 了 这 样 一 种 计算 过 程 。 


function visit(n: node) ; 
begin 
for n 的 每 一 个 孩子 m, 从 左 到 右 do 


begin 
计算 m 的 继承 属性 值 ; /* 只 依赖 于 m 左边 兄弟 的 属性 或 n 的 继承 属性 * / 
visit(m) 

end; 

计算 n 的 综合 属性 值 


end 


图 7.11 深度 优先 从 左 至 右 遍 历 计 算 属性 值 (适用 于 万 属性 文法 ) 
这 一 计算 过 程 的 核心 是 : 某 一 节点 的 继承 属性 只 依赖 于 该 节点 左边 兄弟 的 属性 (综合 
属性 或 继承 属性 ) 或 者 其 父亲 节点 的 继承 属性 。 万 属性 文法 的 特性 能 够 保证 这 一 点 。 
下 面 通过 具体 例子 来 理解 这 一 过 程 。 
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例 7.6 下 面 的 属性 文法 可 用 于 将 二 进 制 无 符号 定点 小 数 转 化 为 十 进 制 小 数 ( 开 始 符 


号 为 N) : 
(1) N>.S {S. f :=1; print(S. v)} 
(2) S>BS, {S,. f =S. f+1; B. f :=S. f; S.v?=B. vt+S,. o} 
(3) S-=e {S. v :一 0} 
(4) B>0 {B. v :一 0} 
(5) Bol {B. v :=2 /7} 
其 中 ,各 个 属性 的 含义 如 下 : 


。 符号 S 的 继承 属性 了 表示 S 推导 的 0、1 串 中 第 一 位 为 1 时 应 该 对 应 的 十 进 制 数值 
为 ?2“。 从 属性 文法 的 第 一 行 中 的 Si. f= 1 和 第 二 行 中 的 S1. f :一 S. 7 二 1 可知: 
小 数 点 后 第 一 位 数 为 1 时 对 应 的 十 进 制 数值 为 2 = 0. 5, 小 数 点 后 第 二 位 数 为 1 时 
对 应 的 十 进 制 数值 为 2 = 0. 25, 小 数 点 后 第 三 位 数 为 1 时 对 应 的 十 进 制 数值 为 
2-§=0, 125,84, 
© 符号 S 的 综合 属性 v 表示 S 推导 的 0、1 串 对 应 的 十 进 制 数值 。 
。 符号 也 的 继承 属性 /表示 二 进 制 数 的 当前 一 位 数字 是 1 时 应 该 对 应 的 十 进 制 数值 
H2, 
© 符号 B 的 综合 属性 v 表示 二 进 制 数 的 当前 一 位 数字 (0 或 1) 对 应 的 十 进 制 数值 。 
容易 看 出 ,这 是 一 个 上 属性 文法 。 下 面 针 对 输入 串 . 101 的 分 析 树 ,给 出 采用 图 7. 11 所 
描述 的 方法 计算 所 有 属性 值 的 过 程 。 
解 : 如 图 7. 12 所 示 , 采 用 图 7. 11 所 述 的 方法 计算 属性 值 的 过 程 是 在 深度 优先 从 左 至 
右 遍历 分 析 树 的 同时 进行 属性 计算 。 直 观 上 可 以 将 其 分 解 为 自 项 向 下 计算 继承 属性 值 的 过 
程 以 及 自 底 向 上 计算 综合 属性 值 的 过 程 。 
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图 7.12 通过 深度 优先 后 序 遍 历 分 析 树 计算 属性 值 的 例子 


容易 看 出 ,可 以 把 图 7. 11 所 描述 的 计算 过 程 与 自 顶 向 下 预测 分 析 过 程 完 全 对 应 起 来 。 
对 于 例 7.6, 可 以 把 图 7. 12 所 描述 的 语义 计算 过 程 穿 插 到 使 用 下 推 栈 的 表 驱 动 预测 分 析 过 
程 中 ,如 图 7. 13 所 示 ( 稍 后 解释 ) 。 


外 ”这 部 分 内 容 仅 通过 例子 进行 直观 的 解释 ,不 作 常 规 介绍 ,可 作为 课 后 选读 内 容 。 
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如 果 将 图 7. 13 中 所 穿插 的 语义 计算 步骤 以 及 语义 信息 全 部 去 掉 , 则 可 以 得 到 图 7. 14 


(为 方便 对 照 ,沿用 了 图 7. 13 的 步骤 编号 ) 。 对 于 例 7.6 的 属性 文法 ,容易 验证 其 基础 文法 
是 LL(1) 文 法 。 事实 上 ,图 7. 14 描述 了 根据 该 LL(1) 文 法 针对 输入 串 . 101 的 预测 分 析 
过 程 。 


在 4. 


步骤 | 下 堆栈 余 留 串 下 一 推导 步 
1 #N .101 #|N>.S 
2 # s. . 101 # | 匹配 栈 顶 和 当前 输入 符号 
4 #5 101# | S>BS 
6 # SB 101#|B-1 
7 #S1 101 # | 匹配 栈 顶 和 当前 输入 符号 
10 #5 01 # | S>BS 
12 # SB 01# | Boo 
13 # SO O11 # | 匹配 栈 顶 和 当前 输入 符号 
16 #5 1 # | S>BS 
18 # SB 1 # | B>1 
19 # S1 1 # | 匹配 栈 顶 和 当前 输入 符号 
22 #5 # | Se 
28 # # | 成 功 返回 


图 7.14 与 万 属性 文法 的 语义 计算 过 程 对 应 的 预测 分 析 过 程 


换 句 话 说 ,图 7. 13 是 在 图 7. 14 的 预测 分 析 过 程 中 附加 了 语义 计算 信息 。 有 具体 做 法 ,可 


5. 2 节 介 绍 的 预测 分 析 程 序 工作 过 程 (图 4. 11) 的 基础 上 ,增加 以 下 考虑 : 
。 将 5 个 产生 式 对 应 的 自 底 向 上 计算 (或 综合 属性 求 值 ) 的 语义 动作 分 别 表示 为 上 一 
回 ( 推 广 到 一 般 情 形 ,每 个 产生 式 可 对 应 一 个 自 底 向 上 计算 的 语义 动作 集合 ) 。 同 
时 ,将 该 属性 文法 中 用 于 继承 属性 求 值 的 语义 动作 分 别 表示 为 (1) 一 (3)( 推 广 到 一 
般 情 形 ,可 以 是 语义 动作 集合 ,因为 每 个 产生 式 中 同一 个 位 置 的 文法 符号 可 以 有 多 
个 继承 属性 的 计算 ) 。 
每 当 开 始 使 用 一 个 产生 式 的 推导 步骤 时 ,先是 将 该 产生 式 左 部 的 非 终结 符 ( 即 距离 
栈 顶 最 近 的 文法 符号 ) 从 下 推 栈 弹出 ; 紧 接着 , 先 将 自 底 向 上 计算 的 语义 动作 入 栈 ， 
以 备 当前 产生 式 对 应 的 分 析 子 过 程 结束 后 执行 ; 之 后 ,再 将 产生 式 右 部 的 符号 从 右 
到 左 依次 入 栈 ,在 每 个 符号 入 栈 后 , 紧 接 着 也 将 其 对 应 的 用 于 继承 属性 求 值 的 语义 
动作 入 栈 。 例 如 ,图 7.13 中 的 步骤 4、10 和 16 使 用 了 例 7.6 中 属性 文法 的 产生 式 
(2) ,在 各 自 的 下 一 步 中 完成 以 下 进出 栈 操作 : 首先 ,从 下 推 栈 弹 出 S; 其 次 ,将 语义 
动作 @(S.v =B. v+ Si. V AR; 最 后 ,将 SI MAE (2) (Si.f :=S. f+1.B 
以 及 语义 动作 (3)(B. 了 :=S. 有 ) 依 次 入 栈 。 
此 外 ,图 7.13 还 维护 一 个 属性 栈 。 每 当 开始 某 个 产生 式 的 推导 步 , 就 将 该 产生 式 右 
端的 非 终结 符 涉及 的 所 有 属性 列表 以 占 位 符 形式 作为 初始 取 值 和 人 栈 。 例 如 ,对 于 
例 7.6 中 属性 文法 的 产生 式 (2) , 设 属性 列表 为 (S. f» S.v, B. fe B. v) ,相应 的 初始 
取 值 用 (一 ,一 ,一 ,一 ) 表 示 。 又 如 ,对 于 产生 式 (1) , 设 属性 列表 为 (S. f，S. v) ,相应 
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的 初始 取 值 用 (一 ,一 ) 表 示 。 对 于 其 他 产生 式 的 情形 ,读者 可 从 图 7. 13 推断 出 来 。 
当下 推 栈 栈 顶 遇 语义 动作 (1) 一 (3) 之 一 , 则 在 当前 属性 栈 栈 顶 所 表示 的 环境 下 执行 
这 个 语义 动作 ,执行 结果 是 修改 这 个 环境 下 对 应 的 属性 值 。 如 在 图 7. 13 中 的 步骤 
3 ,执行 语义 动作 (1)(S. f :二 1) ,执行 结果 是 属性 栈 栈 顶 从 (一 ,一 ) 变 为 (1, 一 ) , 同 
时 使 (1) 出 栈 。 
当下 推 栈 栈 顶 遇 语义 动作 四 一 @ 之 一 , 则 在 当前 属性 栈 栈 项 所 表示 的 环境 下 执行 
这 个 语义 动作 ,弹出 这 个 栈 顶 ,并 根据 执行 结果 修改 新 栈 顶 所 表示 的 环境 下 对 应 的 
属性 值 。 如 在 图 7. 13 中 的 步骤 26 ,执行 语义 动作 OCS. v *=B.vtS). v) ,执行 结 
果 为 S.v :==0. 125+0. 5=0. 625, 属 性 栈 中 将 (2,0. 125,1,0. 5) 弹 出 ,新 栈 顶 从 (1, 一 ) 
变 为 (1,0.625) ,同时 使 @ 出 栈 。 

图 7.13 所 描述 的 过 程 是 将 语义 计算 穿插 到 表 驱 动 预测 分 析 过 程 中 。 实 现 LL(1) 预测 
分 析 的 另 一 种 方法 是 采用 递归 下 降 分 析 程 序 。 可 以 很 方便 地 对 递归 下 降 分 析 程 序 进行 改 
造 , 使 其 同时 具有 语义 计算 的 能 力 。 由 于 随后 讨论 的 翻译 模式 更 便于 实现 ,届时 再 考虑 递归 
下 降 分 析 程 序 的 改造 ,设计 思想 是 一 致 的 。 

另外 ,对 于 某 些 广 属性 文法 也 可 以 设计 基于 LR 分 析 的 自 底 向 上 处 理 过 程 。 同 样 ,将 在 
随后 介绍 的 翻译 模式 基础 上 对 此 进行 讨论 。 


7.2 基于 翻译 模式 的 语义 计算 


7.2.1 翻译 模式 


翻译 模式 是 适合 语法 制导 语义 计算 的 另 一 种 描述 形式 , 它 可 以 体现 一 种 合理 调用 语义 
动作 的 算法 。 翻 译 模式 在 形式 上 类 似 于 属性 文法 ,但 允许 由 {} 括 起 来 的 语义 动作 出 现在 产 
生 式 右 端的 任何 位 置 ,以 此 显 式 地 表达 属性 计算 的 次 序 。 
类 似 于 属性 文法 的 情形 ,在 设计 翻译 模式 时 也 需要 进行 某 些 限定 ,以 确保 每 个 属性 值 在 
一 个 单 遍 的 语义 计算 过 程 中 被 访问 到 的 时 候 已 经 存在 。 与 S- 属 性 文法 和 L- 属 性 文法 相对 
应 ,本 书 仅 讨论 两 类 受 限 的 翻译 模式 : 
。 S- 翻 译 模式 : 是 一 种 仅 涉 及 综合 属性 的 情形 ,通常 将 语义 动作 集合 置 于 相应 产生 式 
右 端的 末尾 。 
。 工 -翻译 模式 : 既 可 以 包含 综合 属性 ,也 可 以 包含 继承 属性 ,但 需要 满足 两 个 条 件 : 
四 产生 式 右 端 某 个 符号 继承 属性 的 计算 必须 位 于 该 符号 之 前 ,其 语义 动作 不 访问 位 
于 它 右 边 符 号 的 属性 ,只 依赖 于 该 语义 动作 左边 符号 的 属性 (对 于 产生 式 左 部 的 符 
号 ,只 能 是 继承 属性 ); @ 产 生 式 左 部 非 终 结 符 的 综合 属性 的 计算 只 能 在 所 用 到 的 
属性 都 已 计算 出 来 之 后 进行 ,通常 将 相应 的 语义 动作 置 于 产生 式 的 尾部 。 
显然 ,S- 翻 译 模式 是 L- 翻 译 模式 的 特例 。 
例 7.7 对 于 语言 L=={a%"c"|n 宇 1) ,可 以 设计 如 下 翻译 模式 : 
S—>A {B.in_num :一 A.num} B 
{C.in num ?=A.num} C 
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{if (B. num=0 and C. num=0 ) 
then print("Accepted!" ) 
else print("Refused!" )} 

A—>Aa {A. num :=A;. num+1} 

A—>a {A. num :一 1} 

B—>{Bi.in num :=B.in_ num} B, b {B. num :一 Bi.num 一 1} 

B>b {B. num :一 Bin num 一 1} 

C>{C,. in_num :一 C.in_num} G, c {C. num :一 Cl.num 一 1)} 

C>c {C. num ?=C,. in_num—1} 

容易 看 出 ,这 是 一 个 L- 翻 译 模式 。 其 中 ,num 为 综合 属性 ,in_num 为 继承 属性 。 

对 照例 7.2 的 属性 文法 , 例 7.7 的 翻译 模式 描述 了 相同 的 语义 计算 效果 : 若 输入 串 
属于 工 , 则 语义 计算 结果 会 执行 print("Accepted1"); 否 则 ,将 会 执行 print("Refused!1") 或 
者 报告 语法 错误 。 不 同 的 是 ,后 者 显 式 描述 了 属性 计算 的 次 序 ( 即 确定 了 语义 动作 执行 
的 位 置 ) 。 


7.2.2 基于 S- 翻 译 模式 的 语义 计算 


S- 翻 译 模式 在 形式 上 与 S- 属 性 文法 是 一 致 的 ,可 以 采取 同样 的 语义 计算 方法 。 类 似 
7.1.4 节 的 讨论 ,基于 S- 翻 译 模式 的 语义 计算 一 般 基 于 自 底 向 上 分 析 过 程 ,通过 增加 存放 属 
性 值 域 的 语义 栈 来 实现 。 这 里 不 再 效 述 这 一 过 程 。 

在 本 节 里 ,为 了 进一步 解释 这 种 基于 自 底 向 上 分 析 ( 如 LR 分析) 的 语义 计算 过 程 ,将 要 
讨论 每 个 产生 式 归 约 时 需要 执行 的 语义 计算 代码 片段 ,特别 是 对 语义 栈 上 操作 的 描述 。 为 
此 ,假设 语义 栈 由 向 量 v 表示 , 归 约 前 栈 顶 位 置 为 top, 栈 上 第 i 个 位 置 所 对 应 符号 的 综合 属 
性 值 x M vli]. r 表示 。 

例如 ,假设 一 个 S- 翻 译 模式 中 有 如 下 产生 式 : 

A>XYZ {A.a:=f(X.zx, Y.ys Z.z); …} 

为 了 明确 表达 语义 栈 上 的 操作 ,将 这 个 产生 式 变换 为 

A>XYZ {v [top 一 2].a := f(v [top—2]. x, v [top—1]. y, v [top]. z); =+} 

这 里 ,top 为 归 约 前 栈 顶 位 置 , 归 约 后 top 的 取 值 将 由 分 析 引 擎 自动 维护 。 


例 7.8 给 定 下 列 S- 翻 译 模式 ( 同 例 7.5 的 S 属 性 文法 ,为 方便 对 照 , 这 里 重复 给 
Hi): 

S>E {print(E. val) } 

E>E,+T {E. val :=E'. val+T. val} 

E=T {E. val :=T. val} 

T>T, * F {T. val :=T. val X F. val} 

T>F {T. val :=F. val} 

FE) {F. val :=E. val} 

Fod {F. val :=d. lexval} 


如 果 在 LR 分 析 过 程 中 根据 该 翻译 模式 进行 自 底 向 上 语义 计算 , 试 写 出 在 按 每 个 产生 
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式 归 约 时 实现 语义 计算 的 一 个 代码 片段 ,可 以 体现 语义 栈 上 的 操作 ( 设 语义 栈 由 向 量 v 表 
示 , 归 约 前 栈 顶 位 置 为 top, 不 用 考虑 对 top 的 维护 ) 。 
解 : 可 以 将 这 个 翻译 模式 变换 为 


S-E {print(v [top]. val) } 

E>E,+T {v [top—2]. val =v [top—2]. val+v [top]. val} 
E>T {v [top]. val :=w [top]. val} // 相 当 于 {} 
T-T, * F {v [top—2]. val =v [top—2]. val * v [top]. val} 
T->F {v [top]. val :=w [top]. val} // 相 当 于 {} 
F>(E ) {v [top— 2]. val =v [top—1]. val} 

F>d {v [top]. val :=d. lexval} 


7.2.3 ”基于 工 -翻译 模式 的 自 项 向 下 语义 计算 


与 -属性 文法 相 比 ,L- 翻 译 模式 已 经 规定 好 了 产生 式 右 端 文法 符号 和 语义 动作 ( 即 属 
性 计算 ) 的 处 理 次 序 , 这 可 以 在 很 大 程度 上 简化 语义 计算 程序 的 设计 。 

根据 7.1.5 节 的 讨论 ,图 7.11 描述 的 过 程 可 用 于 基于 工 -属性 文法 的 语义 计算 ,同样 也 
适用 于 基于 L- 翻 译 模式 的 语义 计算 。 这 一 计算 过 程 可 与 自 顶 向 下 预测 分 析 过 程 完全 对 应 
起 来 。 在 7.1.5 节 中 ,通过 例子 ( 例 7.6) 介 绍 了 将 L- 属 性 文法 描述 的 语义 计算 融入 到 LLO) 
预测 分 析 过 程 之 中 的 方法 。 本 节 以 递归 下 降 分析 程 序 的 改造 为 例 ,介绍 将 L- 翻 译 模 式 描述 
的 语义 计算 过 程 融入 其 中 的 方法 。 同 样 ,假定 所 讨论 的 上 -翻译 模式 的 基础 文法 是 LL) 
文法 。 

在 递归 下 降 LL(1) 分 析 程 序 的 设计 中 ,每 个 非 终 结 符 都 对 应 一 个 分 析 子 函数 (过 程 ) ,分 
析 程 序 从 文法 开始 符号 所 对 应 的 分 析 子 函数 开始 执行 。 分 析 子 函数 可 以 根据 下 一 个 输入 符 
号 来 确定 自 顶 向 下 分 析 过 程 中 应 该 使 用 的 产生 式 , 并 根据 所 选 定 的 产生 式 右 端 依次 出 现 的 
符号 来 设计 其 行为 : 

。 每 遇 到 一 个 终结 符 , 则 判断 当前 读 入 的 单词 符号 是 否 与 该 终结 符 相 匹配 , 若 匹配 , 则 

继续 读 取 下 一 个 输入 符号 ; 若 不 匹配 , 则 报告 和 处 理 语法 错误 。 

。 每 遇 到 一 个 非 终结 符 , 则 调用 相应 的 分 析 子 函数 。 

对 递归 下 降 LL(1) 分 析 程 序 进行 改造 的 核心 思想 是 扩展 各 个 分 析 子 函数 的 定义 。 假 设 
已 为 非 终 结 符 A 构造 了 一 个 分 析 子 函数 。 现 在 ,只 需 对 这 个 分 析 子 函数 的 定义 作 如 下 约 
定 : 以 A 的 每 个 继承 属性 为 形 参 ,以 A 的 综合 属性 为 返回 值 (车 有 多 个 综合 属性 ,可 返回 记 
录 类 型 的 值 )。 相 应 于 分 析 子 函数 的 设计 ,改造 后 子 函数 代码 的 流程 也 是 根据 当前 的 输入 符 
号 来 决定 调用 哪个 产生 式 ,与 每 个 产生 式 对 应 的 代码 同样 也 是 根据 该 产生 式 右 端 的 结构 来 
构造 的 (不 同 之 处 是 要 将 语义 动作 嵌入 其 中 ) ,具体 可 描述 为 如 下 过 程 : 

。 若 遇 到 一 个 终结 符 X, 首 先 将 其 综合 属性 z 的 值 保 存 至 专 为 X.z 而 声明 的 变量 ; 然 

后 ,判断 当前 读 人 的 输入 符号 是 否 与 该 终结 符 相 匹配 。 若 匹配 , 则 继续 读 取 下 一 个 
输入 符号 ; 若 不 匹配 , 则 报告 和 处 理 语法 错误 。 

。 若 遇 到 一 个 非 终结 符 B. 利 用 对 应 于 B 的 子 函 数 ParseB 产生 赋值 语句 c :一 ParseB 

”174“。 


(Dy 0 ,px) HERSE by ,b,,… ,bs 对 应 B 的 各 继承 属性 ,变量 c 对 应 B 的 综合 属 
性 (车 有 多 个 综合 属性 , 则 可 使 用 记录 类 型 的 变量 )。 
© 若 遇 到 一 个 语义 动作 集合 , 则 直接 复制 其 中 每 一 语义 动作 所 对 应 的 代码 ,只 是 需要 
注意 将 属性 的 访问 替换 为 相应 变量 的 访问 。 
改造 后 的 分 析 子 函数 (过 程 ) 称 为 语义 计算 子 函数 (过 程 ) ,改造 后 的 递归 下 降 分 析 程 序 
称 为 递归 下 降 语义 计算 程序 或 递归 下 降 翻译 程序 。 
例 7.9 下 面 的 翻译 模式 可 用 于 将 二 进 制 无 符号 定点 小 数 转化 为 十 进 制 小 数 ( 开 始 符 
号 为 N): 
N>. {S.f?=1} S {print(S. val)} 
S—>{B. f *=S.f} B {S.f:=S.f+1} S, {S.val:=B. val+S,. val} 
Se {S. val :一 0} 
B—>0 {B. val :=0} 
B—>1 {B. val *=27* 5} 
其 中 ,各 个 属性 的 含义 同 例 7.6。 对 于 该 广 翻译 模式 , 试 构 造 相 应 的 递归 下 降 翻 译 程序 。 
解 : 该 [翻译 模式 的 基础 文法 为 
N= S 
S>BS, 
Se 
B>0 
B>1 
可 以 验证 该 文法 为 LL(1) 文 法 。 
针对 该 文法 ,可 构造 一 个 递归 下 降 LL(1) 分 析 程 序 。 其 中 ,开始 符号 N 对 应 的 分 析 子 
函数 为 
void ParseN() 
{ 
MatchToken(' ); // Be." 


ParseS() ; 
} 


非 终结 符 S 对 应 的 分 析 子 函数 为 


void ParseS() 
{ 


if (lookahead==0' or lookahead= ='1') //lookahead 是 当前 扫描 的 输入 符号 
{ 
ParseBO ; 
ParseSQ ; 
} 
else if (lookahead= ='+ 1) {} //'# 为 输入 结束 符 


else{printf("syntax error\n"); exit(0);} 
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非 终结 符 B 对 应 的 分 析 子 函数 为 


void ParseB() 
{ 
if (lookahead 一 一 0) 
{ 
MatchToken( 0") ; // 匹 配 '0' 
} 
else if (lookahead= ='1) 
{ 
MatchToken('1) ; 
} 
else{ printf("syntax error\n"); exit(0);} 


} 

上 面 的 函数 MatchToken 用 于 判别 正在 处 理 的 终结 符 与 当前 输入 符号 是 否 匹 配 。 若 
匹配 , 则 读 取 下 一 输入 符号 ,继续 分 析 过 程 ; 若 不 匹配 , 则 报告 语法 错误 ,并 退出 。 以 下 是 
MatchToken 函数 的 一 种 简单 的 设计 (与 4. 5. 1 节 中 的 相同 ,为 方便 叙述 ,这 里 重复 列 出 ) : 


void MatchToken(int expected) 
{ 
if (lookahead ! = expected) // 判 别 当前 扫描 的 输入 符号 是 否 与 期 望 的 终结 符 匹 配 
printf("syntax error\n") ; // 若 不 匹配 , 则 报告 出 错 信息 ， 跳 出 
exit(0); 
$ 
else 
lookahead= getToken() ; // 若 匹配 , 则 向 词法 分 析 程 序 申请 并 读 人 下 一 个 输入 符号 
} 
其 中 ,lookahead 为 全 局 变量 ,用 于 存放 下 一 个 输入 符号 。 
下 面 对 这 一 递归 下 降 分 析 程 序 根据 翻译 模式 进行 改造 ,得 到 递归 下 降 翻译 程序 。 为 此 ， 
将 每 个 非 终 结 符 对 应 的 分 析 子 函数 改造 为 语义 计算 子 函 数 。 
根据 以 下 产生 式 : 
N>. {S.f?=1} S {print(S.val)} 
开始 符号 N 对 应 的 语义 计算 子 函数 可 以 设计 为 
void ParseN() 
{ 


MatchToken(. ); // 匹 配 … 
Sf :=1; // 变 量 Sf 对 应 属性 S.f 
Sv := ParseS(Sf); // 变 量 Sv 对 应 属性 S. val 
print(Sv) ; 

} 

根据 以 下 产生 式 : 


S>{B.f?=S.f} B {Si.f?=S.f+1} Sı {S.val *=B.val+S,.val} 
* 176:* 


Se {S.val :一 0)} 
非 终结 符 S 对 应 的 语义 计算 子 函数 可 以 设计 为 


float ParseS(int f ) 


{ 


} 


if(lookahead= = 0! or lookahead= ='1) 
{ 
Bf =f; 
Bv *=ParseB( Bf); 
Slf :=f+1; 
Slv += ParseS(S1f) ; 
Sv :=Slv+Bv; 
} 
else if (lookahead= ='#') 
Sv :一 0; 
else{printf("syntax error\n"); exit(0);} 


return Sv; 


根据 以 下 产生 式 : 
B—>0 {B.val :=0} 
B>1 {B.val :=27®} 
非 终结 符 B 对 应 的 语义 计算 子 函数 可 以 设计 为 


float ParseB(int f ) 


{ 


} 


让 (lookahead 一 一 0) { 
MatchToken(0); 
Bv :=0 
} 
else if (lookahead=='1') { 
MatchToken('1) ; 
Bv :=2-(—f) 
} 
else{ printf("syntax error\n"); exit(0);} 


return By; 


//lookahead : 当前 扫描 的 单词 符号 


// 变 量 Bf 对 应 属性 B. f 

// 变 量 Bv 对 应 属性 B. val 
// 变 量 S1 对 应 属性 Si. f 
// 变 量 Slv 对 应 属性 Si. val 


如 果 基 础 文法 不 是 LL(1) 文 法 , 则 不 能 套用 这 种 模式 。 例 如 , 例 7. 8 中 的 S- 翻 译 模式 
(当然 也 是 -翻译 模式 ) 是 常用 于 定义 常量 表达 式 求 值 的 翻译 模式 ,但 其 基础 文法 含有 左 递 
归 , 因 而 不 能 用 LL(1) 方 法 。 有 时 , 若 消除 某 个 文法 的 左 递归 后 , 则 有 可 能 使 得 该 文法 成 为 
LL(1) 文 法 。 若 需要 消除 翻译 模式 的 基础 文法 中 的 左 递归 ,那么 翻译 模式 应 该 如 何 变化 呢 ? 
下 面 介绍 一 种 较 简 单 但 常用 的 一 种 情形 。 

假设 有 如 下 翻译 模式 : 

A>A\Y {A.a:=g(Ai.a, Y. y)} 
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A>X {A.a += f(X. x)} 
消去 关于 A 的 直接 左 递归 ,基础 文法 变换 为 


A>XR 
R>YR |e 
再 考虑 语义 动作 ,翻译 模式 可 变换 为 
A>X {R.i *=f(X.x)} R {A.a :=R. s} 
R>Y {Ri.i:=g(R.i, Y. y)} R, {R.s :一 Ri.s} 
Re {R.s *=R. i} 
变换 前 后 代表 两 种 不 同 的 计算 方式 ,如 图 7. 15 所 示 。 
A.a=g(a AD Yy), Yay) AN Aa 
A.a=g( f(X-x), Fi.y) Y, Xx Ri=f(Xx) Rs 
A.a=ftXx) Yj 万 Rig( f\Xx), Yy) Rs 
| 


R.i=g(g( AXD, Yiy), Yo.y)———> R's 
图 7.15 消除 基础 文法 左 递归 前 后 代表 两 种 不 同 的 计算 方式 


例如 , 例 7.8 中 的 S- 翻 译 模式 经 消除 基础 文法 左 递归 后 ,可 变化 为 如 下 工 -翻译 模式 : 


S>E {print(E. val) } 

E=T {R.i :=T. val} R {E. val :=R. s} 
R>+T {Rı. i *=R.i+T. val} R {R. s :=R. s} 
Re {R. s :=R. i} 

T>F {P. i :=F. val} P {T. val :=P. s} 
P>*F {Pi.i :=P.i (F. val)} P; {P.s :一 Pi.s} 
Pe {P.s *=P. i} 

F-(E) {F. val :=E. val} 

Fod {F. val *=d. lexval} 


此 时 , 便 可 以 套用 以 上 递归 下 降 翻 译 程序 的 模式 了 。 
7.2.4 ”基于 工 -翻译 模式 的 自 底 向 上 语义 计算 


L- 翻 译 模 式 中 既 有 继承 属性 也 有 综合 属性 。 综 合 属性 是 自 底 向 上 传递 信息 ,因而 在 自 
底 向 上 的 语义 计算 中 ,可 以 将 文法 符号 的 综合 属性 值 存放 于 语义 栈 中 。 因 此 , 若 工 -翻译 模 
式 中 不 包含 继承 属性 ,就 可 以 采用 7.1.4 节 或 7.2.2 节 所 述 的 方法 实现 自 底 向 上 的 语义 计 
算 。 此 时 ,只 需 处 理 好 嵌入 在 产生 式 中 间 的 语义 动作 。 对 此 ,一 种 处 理 方法 是 : 引入 新 的 非 
终结 符 N 和 产生 式 Ne; 把 嵌入 在 产生 式 中 间 的 语义 动作 集 用 非 终结 符 N 代替 ,并 把 该 
语义 动作 集 放 在 产生 式 Ne 后 面 。 由 于 语义 动作 集中 未 关联 任何 继承 属性 ,所 以 翻译 模 
式 经 过 这 样 的 变换 后 实际 上 就 可 以 看 作 S- 属 性 文法 (翻译 模式 ) 来 处 理 了 。 

例如 ,对 于 下 列 翻译 模式 : 
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E>TR 
R>+T {print('+)} Ri 
R>—T {print('—)} Ri 


R-e 

T>num {print(num. val) } 
可 以 变换 为 

E>TR 

R>+TMR, 

R>-TNR, 

R-e 

T>num {print(num. val) } 

M—>e {print C+} 

Ne {print('—')} 


然而 , 若 语义 动作 集中 关联 有 继承 属性 ,情况 会 复杂 一 些 。 为 此 ,需要 考虑 如 何 处 理 
针对 继承 属性 的 求 值 和 访问 。 由 于 在 自 底 向 上 的 语义 计算 中 ,语义 栈 中 只 可 能 存放 综合 
属性 值 , 所 以 在 设计 语义 计算 程序 时 应 注意 的 一 个 原则 是 : 继承 属性 的 求 值 结 果 必 须 以 
某 个 综合 属性 值 存放 于 语义 栈 中 ,而 继承 属性 的 访问 也 要 最 终 落实 到 对 某 个 综合 属性 值 
的 访问 。 

首先 讨论 一 下 继承 属性 的 求 值 。 一 种 简单 情况 是 ,继承 属性 是 通过 复写 规则 以 某 个 综 
合 属性 直接 定义 的 。 例 如 ,在 自 底 向 上 语义 计算 程序 根据 产生 式 A> XYZ 的 归 约 过 程 中 ， 
假设 X 的 综合 属性 值 X.s 已 经 出 现在 语义 栈 上 。 因 为 在 根据 句柄 XYZ 进行 归 约 之 前 ， 
X. s 的 值 一 直 存 在 ,因此 它 可 以 被 Y 以 及 Z 继承 。 如 果 用 复写 规则 Y.i =X. s 来 定义 了 的 
继承 属性 Y.i, 则 在 需要 Y. i 时 ,可 以 通过 访问 X. s 来 实现 。 较 之 复杂 一 点 的 情况 是 ,继承 
属性 是 间接 地 通过 复写 规则 用 某 个 综合 属性 来 定义 的 。 比 如 ,用 复写 规则 Z. i :二 Y. i 来 定 
MZ 的 继承 属性 Z.i, 则 在 需要 Z. i 时 ,也 可 以 通过 访问 X.s 来 实现 。 

若 一 个 继承 属性 是 通过 普通 函数 而 不 是 通过 复写 规则 定义 的 ,那么 应 该 如 何 处 理 呢 ? 
考虑 某 个 翻译 模式 的 如 下 产生 式 规 则 : 

SY>aA {C.i:=f(A.s)} C 

这 里 ,继承 属性 C. i 不 是 通过 复写 规则 ,而 是 通过 普通 函数 ACA. s) 来 求 值 的 。 在 计算 
Ci 时 ,A.s 在 语义 栈 上 ,但 f(A. s) 并 未 存在 于 语义 栈 。 一 种 处 理 方法 是 引入 新 的 非 终 结 
符号 ,比如 M, 将 以 上 产生 式 规则 改造 为 

S—>a A {M.i:=A.s} M {C.it=M.s} C 

M—>e {M. s += f(M. i)} 

这 样 就 解决 了 上 述 问题 。 想 一 想 ,为 什么 ? 

其 次 ,讨论 一 下 继承 属性 的 访问 。 根 据 刚 才 对 复写 规则 的 讨论 ,对 继承 属性 的 访问 最 终 
要 归结 到 访问 某 个 综合 属性 。 此 时 需要 解决 好 的 一 个 设计 问题 就 是 要 避免 不 一 致 访问 。 考 
虑 如 下 翻译 模式 : 
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S>aA {C.it=A.s} C| bAB{C.it=A.s} C 

C>c {C. s *=g(C.i)} 

这 里 出 现 的 问题 是 : EE Cc 进行 归 约 时 ,C. i 的 值 或 存在 于 次 栈 顶 (top 一 1) ,或 存 
在 于 次 次 栈 顶 (top 一 2) ,不 能 确定 用 哪 一 个 。 一 种 可 行 的 做 法 是 引入 新 的 非 终结 符 M, 将 以 
上 翻译 模式 改造 为 

SaA {C.i:=A.s} C|bAB {M.i:=A.s} M {C.i:=M.s} C 

Cc {C. s *=g(C.i)} 

Me {M. s :=M.i} 

这 样 ,在 使 用 Cc 进行 归 约 时 ,C. i 的 值 就 确定 地 可 以 通过 访问 次 栈 顶 (top 一 1) 得 到 。 

通常 情况 下 ,可 以 先 考虑 解决 继承 属性 的 普通 函数 求 值 问题 ,再 解决 其 访问 一 致 性 问题 。 

实际 中 所 遇 到 的 情况 可 能 会 更 加 复杂 。 然 而 ,无 论 采 取 何 种 方法 来 解决 继承 属性 的 访 
问 和 求 值 问题 ,我们 的 目标 是 : 通过 变换 翻译 模式 (如 增加 新 的 文法 符号 ,增加 相应 的 复写 
规则 和 产生 式 ) ,使 嵌 在 产生 式 中 间 的 语义 动作 集中 仅 含 复写 规则 ,并 使 得 在 自 底 向 上 的 语 
法 分 析 过 程 中 ,文法 符号 的 所 有 继承 属性 均 可 以 通过 归 约 前 已 出 现在 分 析 栈 中 的 综合 属性 
唯一 确定 地 访问 。 

在 变换 翻译 模式 时 ,还 需要 注意 的 是 : 不 可 以 改变 二 -翻译 模式 的 特性 。 若 不 是 二 -翻译 
模式 , 则 不 能 保证 归 约 前 需要 访问 的 综合 属性 已 出 现在 分 析 栈 中 。 

若 变换 三 翻译 模式 后 可 以 达到 上 述 目标 , 那 么 就 可 以 基于 这 个 三 翻译 模式 进行 自 底 向 
上 的 语义 计算 了 。 此 时 ,可 以 如 7. 2.2 节 那 样 ,给 出 每 个 产生 式 归 约 时 需要 执行 的 语义 计算 
代码 片段 。 下 面 通过 一 个 例子 来 结束 本 节 的 讨论 。 

例 7.10 例 7.9 给 出 的 万 翻译 模式 可 用 于 将 二 进 制 无 符号 定点 小 数 转 化 为 十 进 制 小 数 。 

(1) 变换 该 翻译 模式 ,使 典 在 产生 式 中 间 的 语义 动作 集中 仅 含 复写 规则 ,并 使 得 在 自 底 
向 上 的 语义 计算 过 程 中 ,文法 符号 的 所 有 继承 属性 均 可 以 通过 归 约 前 已 出 现在 分 析 栈 中 的 
确定 的 综合 属性 进行 访问 。 

(2) 如 果 在 LR 分 析 过 程 中 根据 该 翻译 模式 进行 自 底 向 上 的 语义 计算 , 试 写 出 在 按 每 
个 产生 式 归 约 时 实现 语义 计算 的 一 个 代码 片段 ,可 以 体现 语义 栈 上 的 操作 。 设 语义 栈 由 向 
量 v 表示 , 归 约 前 栈 项 位 置 为 top, 终 结 符 没有 语义 值 ; 而 每 个 非 终 结 符 的 综合 属性 都 只 对 
应 一 个 语义 值 ,用 v Ci]. val 表示 ; 不 用 考虑 对 top 的 维护 。 

(3) 根据 (2) 所 得 到 的 LL- 翻译 模式 , 试 给 出 以 . 101 为 输入 串 的 LR 分 析 过 程 和 语义 计 
算 过 程 , 即 给 出 状态 栈 \ 符 号 栈 以 及 语义 栈 的 变化 情况 。 

解 : 首先 看 本 例 的 问题 (1) 。 对 于 该 翻译 模式 ,只 需 引 入 新 的 非 终结 符 , 将 第 一 行 的 
{S.f = 和 第 二 行 的 {Si.y 太 := 一 S.J 计 1)} 进 行 变 换 , 使 翻译 模式 只 含 复写 规则 。 以 下 是 一 个 
变换 结果 : 

(1) N>.M {S.f?=M.s} S {print(S. val)} 

(2) S >{B. f =S. f} B {P.i:=S.f} P Sy. ft*=P.s} S, {S. val ?=B. valt+ 
Si. val} 

(3) Se {S. val :一 0} 
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(4) B>0 {B. val :=0} 


(6) M>e 


(7) Pe {P.s?=P.it1} 


{ 
(5) B>1 {B. val :一 2-27)} 
{ 


再 看 本 例 的 问题 (2) 。 只 需 为 每 个 产生 式 末尾 的 语义 动作 给 出 语义 计算 的 代码 片段 ,而 
产生 式 中 间 的 复写 规则 只 是 在 确定 继承 属性 对 应 的 综合 属性 在 栈 中 的 位 置 时 会 用 到 。 以 下 


是 一 个 变换 结果 : 


(1) N>. MS {print(v [top]. val) } 
(2) SBP S, {v[top—2]. val :=v [top—2]. val+v [top]. val} 


(3) Swe {v [top+1]. val :=0} 

(4) B>0 {v [top]. val :=0} 

(5) Bo1 {v [top]. val == 27%—11-+} 

(6) Me {v [top+1]. s :=1} 

(7) Pe {v [top+1]. s :=w [top—1].s +1} 


对 于 这 个 结果 ,有 选择 地 进行 一 些 解释 。 按 产生 式 (2) 归 约 前 top.top—1 和 top 一 2 的 位 
置 分 别 对 应 符号 S.P 和 B, 归 和约 后 新 栈 顶 的 位 置 是 原来 top 一 2 的 位 置 , 栈 项 符号 变 为 S; 按 产 
生 式 (3) 归 约 后 ,在 原 栈 顶 top 的 上 一 个 位 置 top 十 1 压 入 符号 S, 其 属性 值 val 被 置 为 0; 按 产 
生 式 (5) 归 约 前 ,位 于 原 栈 顶 top 的 符号 是 1, 继 承 属性 B. / 对 应 的 综合 属性 位 置 可 跟踪 产生 
式 (2) 和 (1) 得 到 ,是 位 于 top 一 1 位 置 上 的 M. s 或 P.s( 都 可 以 用 wv [top 一 1].s 访 问 ); 产生 
式 (7) 中 的 继承 属性 P. i 的 综合 属性 位 置 同样 也 可 跟踪 产生 式 (2) 和 (1) 得 到 ,是 位 于 top 一 1 位 


置 上 的 M.s 或 P.s, 可 以 用 vw [top 一 1].s 访问 。 


最 后 看 本 例 的 问题 (3) 。 可 以 验证 ,对 于 由 本 例 的 (2) 所 得 到 的 L- 翻 译 模 式 , 其 基础 文 
法 是 LR 文法 ,图 7. 16 是 基于 该 文法 的 一 个 LR 分 析 表 。 若 以 . 101 作为 输入 串 , 则 LR 分 
析 过 程 和 语义 计算 过 程 可 以 描述 为 图 7. 17。 


ACTION 


GOTO 
状态 

0 1 # B P 
0 S: 
1 acc 
2 re re re 
3 Ss Ss rs 7 
4 n 
5 rm re r 
6 rs rs rs 
7 r: T, r 8 
8 S; Ss Ta ? 
9 Ta 


图 7.16 基于 二 进 制 无 符号 定点 小 数 文法 的 一 个 LR 分 析 表 
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7.3 分 析 和 翻译 程序 的 自动 生成 工具 yace 


过 去 几 十 年 ,人 们 设计 了 许多 用 于 实现 基于 语法 制导 的 语义 计算 程序 的 自动 构造 工具 。 
这 些 工具 分 为 生成 自 上 而 下 语义 计算 程序 和 自 下 而 上 语义 计算 程序 的 自动 构造 工具 两 类 。 
虽然 也 存在 很 受 欢迎 的 自 上 而 下 语义 计算 程序 的 自动 构造 工具 ,如 Java") ,然而 自 下 
而 上 语义 计算 程序 的 自动 构造 工具 能 够 适应 更 多 的 文法 ,历史 更 加 悠久 ,更 加 成 熟 , 应 用 也 
更 加 广泛 。 

yacc(yet another compiler-compiler) 是 20 世纪 70 年 代 由 Johnson 等 人 在 美国 Bell 实 
验 室 研制 开发 的 基于 LALR(1) 语 法 分 析 方 法 的 一 个 实用 的 语法 分 析 / 语 义 计算 程序 自动 构 
造 工具 5 ,早期 作为 UNIX 操作 系统 的 实用 程序 发 布 。 之 后 ,又 派生 出 许多 著名 的 yace 实 
现 版 本 ,如 GNU 版 本 Bison! ,Berkeley 版 本 Byacc59 ,等 等 。 这 里 , 仅 介绍 yace 工具 使 用 
的 最 基本 内 容 , 实 际 应 用 时 还 需 参 考 相关 技术 手册 ,不 同 版 本 的 yacc 也 有 细小 的 差别 。 

如 图 7. 18 所 示 ,yacc 工具 的 核心 功能 是 读 入 用 户 编写 的 一 个 yace 描述 文件 ,生成 一 个 
名 为 y. tab. c 的 C 源 程序 文件 。y. tab. c 中 包含 一 个 函数 yyparse(), 它 描述 了 一 个 基于 
LALR(1) 分 析 表 的 LALR(1) 分 析 过 程 ,以 及 基于 这 一 分 析 过 程 的 语法 制导 的 语义 计算 。 
每 当 yyparse() 需 要 读 入 终结 符 时 ,就 调用 称 为 yylex() 的 词法 扫描 子 程序 返回 下 一 个 单词 
符号 (包含 单词 种 别 以 及 单词 自身 的 值 等 信息 ) 。yylex() 可 以 由 用 户 自 己 编写 ,也 可 以 通过 
lex 自动 生成 。 


描述 文件 
1 
yacc 
1 
字符 流 单词 符号 语法 /语义 处 理 结果 
源 程序 e| yylex() =| yyparse() = 
图 7.18 yacc 简介 


yace 描述 文件 类 似 于 本 章 所 介绍 的 L- 翻 译 模 式 , 函 数 yyparse() 描 述 了 一 个 基于 LA 
译 模式 的 自 底 向 上 语义 计算 (参见 7. 2. 4 节 )。yyparse() 根 据 LALR(1) 分 析 表 ,当归 约 时 
调用 语义 处 理 动作 。 在 某 些 情况 下 ,需要 将 动作 插 在 某 规则 的 文法 符号 之 间 ,根据 7.2.4 节 
所 描述 的 方法 ,这 时 yace 会 采用 自动 增加 规则 和 非 终结 符 的 方法 ,使 其 语义 动作 都 在 一 条 
规则 的 末尾 进行 , 即 归 约 时 进行 。 

此 外 ,yacc 还 可 以 处 理 某 些 非 LALR(1) 文 法 的 规则 ,在 6.6 节 中 曾 介绍 过 二 义 性 文法 
在 LR 分析 中 的 应 用 ,yacc 给 出 了 二 义 性 文法 终结 符 之 间 的 优先 关系 和 结合 性 的 书写 规定 。 
对 用 户 书写 的 二 义 性 文法 规则 按 其 优先 级 和 结合 性 自动 生成 相应 的 分 析 表 。 对 于 用 优先 级 
和 结合 性 能 解决 的 冲突 ,yacc 不 报告 发 生 冲 突 。 


. 183 。 


7.3.1 yace 描述 文件 

yace 描述 文件 形式 如 下 : 

%{ 

声明 部 分 

%) 

辅助 定义 部 分 

%% 

规则 部 分 

%% 

用 户 函 数 部 分 
其 中 ,声明 部 分 .辅助 定义 部 分 和 用 户 函 数 部 分 都 是 可 选 的 ,可 以 不 出 现 。 若 声明 部 分 为 空 ， 
则 %{ 和 %)} 的 两 行 可 去 掉 ; 著 用户 函 数 部 分 为 空 , 则 第 二 个 %% 的 行 也 可 去 掉 。 这 样 ,yace 
描述 文件 可 以 只 包含 规则 部 分 ,具有 如 下 形式 : 

%% 

规则 部 分 

下 面 分 别 介绍 各 个 部 分 所 描述 的 最 基本 信息 ,关于 yace 描述 文件 更 多 的 内 容 , 读 者 可 
参考 有 关 yace 的 详细 技术 手册 。 


7.3.1.1 声明 部 分 


声明 部 分 定义 常规 的 C 程序 声明 ,所 有 嵌 在 %{ 和 %) 之 间 的 内 容 将 被 原样 复制 到 所 生 
成 的 语法 分 析 / 语 义 计算 程序 中 。 在 声明 中 ,可 以 引入 头 文件 、 宏 定义 以 及 全 局 变量 的 定义 
等 。 例 如 : 

%{ 

#include <stdio. h> 

# define IDEN 5 


int global_variable=0; 


%} 


7.3.1.2 辅助 定义 部 分 

辅助 定义 部 分 主要 包括 如 下 几 个 方面 的 定义 : 

(1) 定义 语法 开始 符号 。 形 如 

Ystart 非 终结 符 

如 果 语 句 %start 被 省 略 掉 , 那 么 规则 部 分 第 一 条 规则 左 端的 符号 将 默认 为 是 文法 的 开 
始 符号 。 

(2) 语义 值 类 型 定义 。 默 认 情 形 下 ,语义 动作 和 词法 分 析 程序 的 返回 值 为 整 型 。 其 他 
语义 值 的 类 型 (包括 结构 类 型 ) 可 由 %union 声明 , 形 如 

%union { 
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H % union 声明 的 类 型 可 以 通过 一 类 型 名 二 的 形式 置 于 %token,%W%type,%left, % right 
Ail %nonassoc 等 之 后 ,用 于 声明 相应 符号 的 语义 值 类 型 。 默 认 情 况 下 ,这 些 符号 的 语义 值 

(3) 终结 符 定义 。 形 如 

%token 终结 符 


例如 ,用 %token NUMBER ID 声明 单词 种 别 NUMBER 和 ID, 可 作为 文法 的 终结 符 。 
另外 ,用 作 终 结 符 的 单个 字符 置 于 单 引 号 之 间 。 例 如 ,运算 符 十 和 一 分 别 写作 ' 十 和， 


(4) 非 终结 符 的 类 型 说 明 。 形 如 
“type 二 类 型 名 > 非 终结 符 


其 中 ,二 类 型 名 二 可 由 %union 声明 。 默 认 情 形 下 , 非 终结 符 对 应 的 语义 值 类 型 为 整 型 。 

(5) 优先 级 和 结合 性 定义 。 分 别 用 %left、%right 和 %nonassoc 来 定义 左 结 合 、 布 结合 
以 及 无 结合 性 的 运算 符 。 例 如 ,为 了 声明 运算 符 十 和 一 具有 左 结 合 性 ,写作 

“left +" 一 ， 
其 中 ,运算 符 被 单 引 号 括 起 来 ,并 且 用 空格 分 隔 。 对 于 运算 符 分 好 几 行 描述 的 情形 ,后 边 行 
中 的 运算 符 具有 比 前 边 行 中 的 运算 符 更 高 的 优先 级 。 当 然 , 同 一 行 中 的 运算 符 具 有 相同 的 
优先 级 。 例 如 : 

%left +' 一 ， 

%right UMINUS 

此 例 中 ,运算 符 十 和 一 有 同样 的 优先 级 , 低 于 UMINUS 的 优先 级 。 如 果 运 算 符 出 现在 
二 义 文法 中 ,在 需要 构造 LR 分 析 过 程 时 ,通过 声明 这 些 运算 符 的 结合 性 和 优先 级 常常 可 以 
做 到 这 一 点 。 

以 下 是 一 个 辅助 定义 部 分 的 片段 : 

%start Program 

%union{ 


double doubleConstant; 


char identifier[ 128]; 
declaration * decl; 
} 
% token T_Void T_Bool T_Int 
% token <identifier> T_Identifier 
% token <doubleConstant> T_DoubleConstant 


%type <decl> VariableDecl 
» 185 。 


7.3.1.3 规则 部 分 


规则 部 分 即 语法 制导 的 语义 计算 所 依据 的 翻译 模式 ,由 一 个 或 多 个 规则 (产生 式 ) 组 成 。 
各 规则 形 如 


A : Body; 


其 中 ,A 表示 非 终 结 符 ,Body 表示 0 个 或 多 个 名 字 及 文字 组 成 的 序列 ,“;” 为 规则 之 间 的 分 
隔 符 。 名 字 可 以 是 终结 符 (对 应 单词 符号 ) 或 非 终 结 符 ; 文字 由 单 引号 内 的 字符 ( 含 转 义 字 
符 ) 组 成 。 

如 果 若 干 规则 具有 同样 的 左边 符号 , 则 可 用 竖 线 “1” 来 避免 重复 左边 符号 。 此 外 ,处 于 
规则 末端 而 在 竖 线 之 前 的 *;” 可 以 省 略 。 这 样 ,规则 集合 


A + BCD; 
A : EF; 
A : G; 
可 以 表示 为 
A + BCD 
| EF 
| G 


若是 e 规则 , 则 可 表示 为 

A tj 

每 个 规则 可 以 关联 若干 语义 动作 。 语 义 动作 既 可 以 出 现在 规则 的 末尾 ,也 可 以 出 现在 
规则 右 端 的 中 间 位 置 。 语 义 动作 出 现在 规则 的 末尾 时 ,yacc 在 归 约 前 执行 它 ; 语 义 动作 出 
现在 规则 的 中 间 时 ,yacc 在 识别 出 它 前 面 的 若干 文法 符号 后 执行 它 。 

规则 中 的 每 个 文法 符号 以 及 语义 动作 本 身 都 可 以 有 自己 对 应 的 语义 值 。 终 结 符 ( 对 应 
单词 符号 ) 的 语义 值 由 词法 分 析 程 序 给 出 ,并 保存 在 yylval 中 。 非 终结 符 的 语义 值 在 语义 
动作 中 获得 。 在 语义 动作 中 可 以 通过 $ 伪 变量 访问 语义 值 , 左 部 非 终 结 符 的 语义 值 为 $$ ， 
右 部 文法 符号 或 语义 动作 的 语义 值 依次 为 $1,$2,…。 例 如 ,如 下 规则 

expr : “expr ')' {$$ := $2;} 
表示 按 该 规则 归 约 时 返回 左 端 非 终 结 符 的 语义 值 就 是 右边 第 二 个 符号 返回 的 语义 值 。 若 规 
则 中 没有 显 式 地 为 $$ 赋值 , 则 返回 左 端 非 终结 符 的 语义 值 默认 为 是 右边 第 一 个 符号 或 语 
义 动作 返回 的 语义 值 。 

当 语 义 动作 位 于 右 部 第 个 位 置 时 ,可 以 引用 的 语义 值 包 括 $$ ,$1, $2,…， 
$kk<n) ,这 一 点 可 参考 6.1.2 节 中 对 于 三 翻译 模式 的 要 求 ; 该 动作 的 语义 值 为 $n, 动作 
中 可 以 用 $$ 为 它 赋 值 ,后 续 动 作 中 可 以 通过 $n 引用 它 的 值 。 例 如 ,有 如 下 规则 : 

A : B {$$ :=1;} 

C {xt=$2; y:=$3;} 


归 约 时 语义 动作 的 执行 结果 是 : 将 x 置 为 1,y 置 为 C 返回 的 语义 值 。 注 意 ,语义 动作 
{$$ :一 1;} 中 的 $$ 指向 该 动作 本 身 的 语义 值 , 而 不 是 指向 左 端 非 终 结 符 A 的 语义 值 。 如 
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果 语 义 动作 {z :二 $2; y :二 $3;) 中 没有 显 式 地 为 $$ 赋值 ,那么 归 约 后 A 的 语义 值 将 被 
BOY B 返回 的 语义 值 。 

类 似 于 7. 2.4 节 的 讨论 ,对 处 于 中 间 位 置 的 语义 动作 ,yacc 内 部 的 处 理 过 程 是 增加 一 
个 新 的 非 终结 符 和 一 条 相应 的 e- 规 则 , 当 按照 这 条 规则 进行 归 约 时 触发 这 个 语义 动作 。 对 
于 上 一 个 例子 中 的 规则 ,yacc 内 部 处 理 时 就 像 是 把 这 条 规则 替换 为 以 下 两 条 规则 : 

$ACT + {$$ :=1;} 


A : B $ACT C {x!=$2; y?= $33} 


其 中 , $ACT 为 yace 处 理 过 程 中 的 一 个 内 部 符号 。 

为 进行 错误 恢复 ,yacc 保留 了 一 个 名 为 error 的 特殊 终结 符 , 可 以 出 现在 规则 中 ,用 来 
表示 预期 的 出 错 及 进行 错误 恢复 的 位 置 。 例 如 , 若 有 如 下 规则 : 

expr : error ';' 
当 出 现 错误 时 ,分 析 程 序 试图 忽略 相应 的 语法 成 分 , 它 从 输入 序列 中 滤 除 ';' 之 外 的 单词 符 
号 ; 当 遇 到 '; 时 ,分 析 程 序 将 根据 这 条 规则 进行 归 约 ,分 析 过 程 得 以 恢复 。 

为 了 更 好 地 实现 错误 恢复 yace 提供 了 一 些 特殊 的 语句 或 宏 , 如 yyerrok、yyclearin 等 ， 
可 以 与 error 配合 使 用 , 即 用 于 error 后 的 语义 动作 中 。 限 于 篇 幅 , 这 里 不 作 进一步 讨论 , 读 
者 可 以 参考 有 关 的 技术 手册 。 


7.3.1.4 用 户 函 数 部 分 


用 户 函 数 部 分 应 当 包 含 一 个 用 C 语言 编写 的 主 函数 , 它 会 调用 分 析 函 数 yyparse。 

这 一 部 分 还 应 当 包 括 一 个 错误 处 理 函 数 yyerror。 每 当 分 析 程 序 发 现 语法 错误 时 ,将 调用 
yyerror 输出 错误 信息 。yacc 默认 的 错误 处 理 是 遇 到 第 一 个 语法 错误 就 退出 语法 分 析 程 序 。 

如 果 用 户 没有 提供 这 两 个 函数 , 则 会 使 用 由 库 函 数 提供 的 默认 版 本 。 例 如 ,默认 的 
main 函数 可 能 是 

main{ 


return (yyparse() ); 


} 
默认 的 yyerror 函数 可 能 是 


# include <stdio. h> 
yyerror(char * s) { 
{print (stderr, "% s\n", s ); 


} 

另外 ,规则 部 分 的 语义 动作 可 能 需要 使 用 一 些 用 户 定义 的 子 函数 ,这 些 子 函数 都 必须 遵 
SEC 语言 的 语法 规定 ,这 里 不 再 闭 述 。 
7.3.2 使 用 yace 的 一 个 简单 例子 

下 面 介绍 用 yace 实现 一 个 简单 计算 器 的 例子 。 同 时 ,这 也 是 lex 与 yacc 联合 使 用 的 一 
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定义 如 下 yace 描述 文件 : 


%{ 

# include <stdio. h> 
%} 

/* 终结 符 */ 

%token INTEGER 

/* 优先 级 和 结合 性 * / 


“left '+' 

Wleft '*' 

%% 

input : /* empty string */ 
input line 

line :An 
exp An’ {printf ("\t%d\n", $1);} 
error ‘\n' 

exp : INTEGER {$$=$1;} 
exp '+' exp ($=$1+ $33} 
exp '*' exp {$$=$1* $3;} 
C exp ) {$$=$2;} 


%% 
/* 用 户 函数 */ 


main(){ 
yyparse (); 


int yylex(){ /* 自行 编写 或 由 lex 自动 生成 , 在 随后 介绍 的 lex 和 yace 的 联 
用 中 , 需 删 去 这 里 的 yylex() 定 义 * / 


yyerror (char * s){ 
printf ("%s\n", s); 
} 


将 这 一 yacc 描述 文件 命名 为 exp.y。 
假设 采用 由 lex 自动 生成 yylex() 的 方式 。 在 3.7.4 节 ,定义 了 如 下 lex 描述 文件 : 
%{ 
# include "y. tab. h" 
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extern int yylval; 


1% 

%% 

ol[1—9][0—9] * {yylval=atoi(yytext); return INTEGER; } 
[+ * O\n] {return yytext[0];} 


3 { /*donothing*/ } 
%% 
将 这 一 lex 描述 文件 命名 为 exp. 1。 
在 Linux 环境 (假设 安装 了 相应 的 开发 包 , 并 且 设置 了 正确 的 环境 变量 ,系统 提示 符 为 
$) 中 ,可 以 通过 如 下 步骤 产生 这 一 简单 计算 器 的 可 执行 文件 : 


$ lex exp.1 /* 产生 包含 yylex() 的 C 文件 lex. yy.c HRA yylexO * / 
$ yace -d exp.y /* 产生 包含 yyparse() 的 C 文 件 y. tab. c 及 头 文件 y. tab. h * / 
$ cc y.tab.c lex.yy.c -ly -ll -o exp /* 产生 可 执行 文件 exp,-ly 和 -ll 分 别 为 


yacc 和 lex 库 文件 的 选项 * / 

为 了 联 用 lex 和 yacc, 需 要 在 运行 yace 程序 时 加 选项 -d, 以 产生 文件 y. tab. h, 其 中 会 包 
A TE yace 描述 文件 中 (由 %tokens 定义 ) 的 所 有 单词 种 别 。 文 件 y. tab. h 将 被 包含 在 lex 描 
述 文 件 中 。yylex() 会 返回 当前 单词 符号 的 单词 种 别 ,并 将 单词 自身 的 值 存 入 全 局 量 
yylval 。 

可 执行 文件 exp 的 执行 效果 如 下 : 

$ ./exp 

$ 4 十 3x5 

$ 19 


在 实际 中 ,读者 可 能 会 使 用 不 同 的 lex 和 yace 版 本 ,相应 的 描述 文件 以 及 某 些 选项 可 能 
有 不 同 的 约定 。 比 如 ,若是 使 用 flex 而 不 是 lex, 则 其 库 文件 的 选项 应 该 是 -1f1, 而 不 是 -11。 
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1. 下 面 的 文法 G LS] 描述 由 布尔 常量 false、true, 联 结 词 入 ( 合 取 )、V ( 析 取 )、 飞 否定) 
构成 的 不 含 括号 的 二 值 布尔 表达 式 的 集合 : 

S'S 

S>SVT|T 

T>TAF|F 

F>-F | false| true 
试 设计 一 个 基于 G [S] 的 属性 文法 , 它 可 以 计算 出 每 个 二 值 布尔 表达 式 的 取 值 。 如 对 于 名 
Frue V -falseAtrue, 输 出 是 true. 

2. 给 定 文法 G [S]: 

S>(L)la 

EL. SIS: 

如 下 是 相应 于 G [S] 的 一 个 属性 文法 (或 翻译 模式 ) : 
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StL) {S. num :=L. num +1;} 

Sa {S. num :=0;} 

Eh 5 {L. num :=Li. num+S. num; } 
LS {L. num :=S. num;} 


图 7. 19 分 别 是 输入 串 (a,(a)) 的 语法 分 析 树 和 对 应 的 带 标 注 语 法 树 , 但 后 者 的 属性 值 
没有 标 出 , 试 将 其 标 出 ( 即 填写 图 7. 19 右 图 中 符号 二 右边 的 值 ) 。 


S S.num= 
{ ZL ) ( L.num= ) 
L i Ss L.num= Snum= 
| ( | ) Snum= ( Lnum=  ) 
a S | S. iz 
l | 


图 7.19 题 2 的 语法 分 析 树 和 带 标注 语法 树 
3. 下 面 是 一 个 简单 表达 式 文法 G [S] 的 一 个 仅 含 综 合 属性 的 属性 文法 (开始 符号 为 S) : 


SE {print(E. val) } 

EE; +T {E. val *=E,. val+ T. val} 
E>T {E. val :=T. val} 

TT, *F {T. val :=T,. val X F. val} 
T>F {T. val :=F. val} 

F>(E) {F. val :=E. val} 

Fod {F. val :一 d. lexval} 


其 中 ,d. lexval 是 由 词法 分 析 程 序 所 确定 的 属性 ; F. val, T. val 和 E. val 都 是 综合 属性 ; 语 
义 函数 print(E. val) 用 于 显示 E. val 的 结果 值 。 不 难 理解 ,这 个 属性 文法 描述 了 一 个 基于 
简单 表达 式 文法 进行 算术 表达 式 求 值 的 语义 计算 模型 。 

试 给 出 表达 式 3 * (5 十 4) 的 语法 分 析 树 和 相应 的 带 标 注 语 法 分 析 树 。 

4. 以 下 是 简单 表达 式 ( 只 含 加 、 减 运算 ) 计 算 的 一 个 属性 文法 GE): 


E>TR {R.in?=T. val; E. val :=R. val} 

及 一 十 TR， {Ri. in *=R.in+T. val ; R. val :一 Ri .val) 
及 一 一 TR， {Ri. in :=R. in— T. val ; R. val :一 Ri .val) 
Re {R. val :=R. in} 

T>num {T. val :=lexval( num) } 


其 中 ,lexval(num) 表 示 从 词法 分 析 程 序 得 到 的 常数 值 。 

试 给 出 表达 式 3 十 4 一 5 的 语法 分 析 树 和 相应 的 带 标注 语法 分 析 树 。 

5. 题 2 中 所 给 的 G [Sj 的 属性 文法 是 一 个 S$- 属性 文法 , 故 可 以 在 自 底 向 上 分 析 过 程 中 
增加 语义 栈 来 计算 属性 值 。 图 7. 20 Æ G [Sj 的 一 个 LR 分 析 表 ,图 7. 21 描述 了 输入 串 
(a,(a)) 的 分 析 和 求 值 过 程 (语义 栈 中 的 值 对 应 S. num BK L. num), 其 中 ,第 14、15 行 没有 
给 出 , 试 补 全 。 
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状态 ACTION GOTO 
a ` ¢ ) = S L 
0 S; & 1 
1 ace 
2 S; S 5 4 
3 re T2 T2 
4 Sr Ss 
5 rs T4 
6 n nr r 
7 Ss S: 8 
8 rs Ts 
图 7.20 题 5 的 LR 分 析 表 
步骤 | 状态 栈 语义 栈 符号 栈 | 余 留 符号 串 
1 0 = # (a,(a)) # 
2 02 == #( a,(a))# 
š 023 => Fla ae 
4 025 =e #(S (a) # 
5 024 = c # (L ae 
6 0247 = =g aÁ # (L, (a))# 
7 02472 == ae #(L,( a))# 
8 024723 = 并 (L,(a | ))# 
9 024725 — = = = F#(LAS | ))# 
10 024724 === = 9 #(LAL | ))# 
11 0247246 | 
12 02478 = #(L,S ) 井 
13 024 = #(L )# 
14 
15 
16 “| 接受 
图 7.21 题 5 的 分 析 和 求 值 过 程 
6. 给 定 LL(1) 文 法 G [S]: 
S>Ab B 
A—>a Ale 
Ba B|bB|e 
如 下 是 以 G [SJ 作为 基础 文法 设计 的 翻译 模式 : 
S>Ab {B.in num :=A .num}B {if B. num=0 then print(" Accepted! ") 
else print("Refused!" ) } 
A>aA, {A. num :=Ai. num+1} 
Ae {A. num ?=0} 
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B—>a {Bi.in num :=B.in_num} B, {B. num :=B,. num— 1} 

Bob {Bi.in num :=B.in num} B, {B. num :=B,. num} 

Boe {B. num :=B. in_num} 

试 针对 该 翻译 模式 构造 相应 的 递归 下 降 ( 预 测 ) 翻 译 程序 (参考 例 7.9, 可 直接 使 用 其 中 
的 MatchToken 函数 )。 

7. 设 题 4 中 属性 文法 的 基础 文法 为 GLE]. 

(1) 说 明 GLEJ 是 LL(1) 文 法 。 

(2) 如 下 是 以 GLE] 作 为 基础 文法 设计 的 翻译 模式 : 


E>T {R.in?=T. val} R {E. val *=R. val} 
R>+T {R,.in?*=R.in+T. val} R, {R. val *=R,. val} 
R>—T {Ri.in?=R.in—T. val} R, {R. val *=R,. val} 
Re {R. val :=R. in} 

T>num {T. val *=lexval(num) } 


试 针 对 该 翻译 模式 构造 相应 的 递归 下 降 ( 预 测 ? 翻 译 程序 (如 题 6, 可 直接 使 用 例 7. 9 中 
的 MatchToken 函数 ) 。 

8. 题 3 中 的 属性 文法 可 以 看 作 一 个 S- 翻 译 模式 ,其 基础 文法 为 SLR(1) 文 法 (开始 符 
号 为 S)。 

由 于 是 S- 翻 译 模 式 , 所 以 在 LR 分 析 过 程 中 根据 该 翻译 模式 进行 自 底 向 上 语义 计算 时 ， 
文法 符号 的 所 有 继承 属性 均 可 以 通过 归 约 前 已 出 现在 分 析 栈 中 的 综合 属性 进行 访问 。 试 写 
出 在 按 每 个 产生 式 归 约 时 语义 计算 的 一 个 代码 片段 ( 设 语义 栈 由 向 量 v 表示 , 归 约 前 栈 顶 位 
TRON top ,终结 符 不 对 应 语义 值 ,而 每 个 非 终结 符 的 综合 属性 都 只 对 应 一 个 语义 值 ,可 用 
vLi]. val 访问 ,不 用 考虑 对 top 的 维护 ) 。 

9. 给 定 文法 GLS]: 

S>MADbB 

A>Aale 

B>Ba|Bble 

M->e 
在 文法 G [Sj 基础 上 设计 如 下 翻译 模式 : 

S>M {A.in_num ?=M. num} 

Ab (B,in_num ?=A, num} 
B {if B. num=0 then S. accepted :一 true else S. accepted += false} 

A> {A,.in_num?=A.in_num} Aa {A. num ?=A;.num—1} 

A>e {A. num :=A. in_num} 

B> {B,.in_num?=B.in_num} Ba {B.num?=B,.num—1} 

B> (B,.in_num?=B.in_num} Bib {(B.num?=B;. num} 

B> e {B. num :=B. in_num} 

M~>e {M. num :=100} 

AWHEA H, BIETA AE SK P E TE SC EE PALE E AE A JE E RAAT 
过 程 中 ,文法 符号 的 所 有 继承 属性 均 可 以 通过 归 约 前 已 出 现在 分 析 栈 中 的 综合 属性 唯一 确 
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定 地 进行 访问 。 试 写 出 在 按 每 个 产生 式 归 约 时 语义 计算 的 一 个 代码 片段 ( 设 语义 栈 由 向 量 
v 表示, 归 约 前 栈 顶 位 置 为 top, 终 结 符 不 对 应 语义 值 ,而 每 个 非 终 结 符 的 综合 属性 都 只 对 应 
一 个 语义 值 ,可 用 wv Li]. num 或 v [i]. accepted 访问 ,不 用 考虑 对 top 的 维护 ) 。 

10. 变换 如 下 翻译 模式 ,使 嵌 在 产生 式 中 间 的 语义 动作 集中 仪 含 复写 规则 ,并 使 得 在 自 
底 向 上 的 语法 分 析 过 程 中 ,文法 符号 的 所 有 继承 属性 均 可 以 通过 归 约 前 已 出 现在 分 析 栈 中 
的 确定 的 综合 属性 进行 访问 : 

D>D, ;T {L.type:=T.type; L. offset :一 Di. width; L. width :=T.width} L 

{D. width := Di. width+L. num X T. width} 
DF {L. type :=T. type; L. offset :一 0; L. width := T. width} L 
{D. width :=L. num X T. width} 

T — integer {T. type :一 int; T. width :=4} 

T > real {T. type :一 real; T. width :一 8} 

L —> {Li.type :=L. type; Li. offset :=L. offset; Lı. width :=L. width;} Li, id 

{enter (id. name, L. type, L. offset+-L,. num (L. width); L. num ?=L,. num+1} 

L > id {enter (id. name, L. type, L. offset); L. num :=1} 

11. 设 有 如 下 翻译 模式 ,其 基础 文法 是 G LN]: 

N —> {S. f +=1} S {print(S. v)} 

S —> {S.f *=2 S.f} Sı {B.f:=S.f} B {S.v:=S,. v+B. v} 

Ss {S.v :=0} 

B=0 {B. v :=0} 

B==1 {B. v :=B. f} 

(1) EMAER EHR HE 7? E R P E O REA EEPL E E N, EIEE A JE 
向 上 的 语义 计算 过 程 中 ,文法 符号 的 所 有 继承 属性 均 可 以 通过 归 约 前 已 出 现在 分 析 栈 中 的 
确定 的 综合 属性 进行 访问 。 

(2) 如 果 在 LR 分 析 过 程 中 根据 (1) 所 得 到 的 新 翻译 模式 进行 自 底 向 上 的 语义 计算 , 试 
写 出 在 按 每 个 产生 式 归 约 时 语义 计算 的 一 个 代码 片段 ( 设 语义 栈 由 向 量 v 表示 , 归 约 前 栈 顶 
位 置 为 top, 终 结 符 不 对 应 语义 值 ; 而 每 个 非 终 结 符 的 综合 属性 都 只 对 应 一 个 语义 值 ,用 
uli]. v 表示; 不 用 考虑 对 top 的 维护 )。 

12. 设 有 如 下 翻译 模式 ,其 基础 文法 是 G [Sj]: 

S—> Ab {B.in num :一 A.num 十 100} 

B {if B.num=0 then S, accepted :一 true 
else S. accepted += false} 
S— Abb {B.in num ?=A. num+50} 
B {if B.num=0 then S. accepted :一 true 
else S. accepted += false} 
A — A, a {A. num ?=A,. num+1} 
Ae {A. num :一 0} 
B— {Bi.in num:=B.in num} Ba ({B.num ?=B,.num—1} 
Be {B. num += B. in_num} 
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(1) 变换 该 翻译 模式 ,使 嵌 在 产生 式 中 间 的 语义 动作 集中 仅 含 复写 规则 ,并 使 得 在 自 底 
向 上 的 语义 计算 过 程 中 ,文法 符号 的 所 有 继承 属性 均 可 以 通过 归 约 前 已 出 现在 分 析 栈 中 的 
确定 的 综合 属性 进行 访问 。 

(2) 如 果 在 LR 分 析 过 程 中 根据 (1) 所 得 到 的 新 翻译 模式 进行 自 底 向 上 的 语义 计算 , 试 
写 出 在 按 每 个 产生 式 归 约 时 语义 计算 的 一 个 代码 片段 (假设 语义 栈 由 向 量 v 表 示 , 归 约 前 栈 
顶 位 置 为 top, 终 结 符 不 对 应 语义 值 , 而 每 个 非 终 结 符 的 综合 属性 xz 都 只 对 应 一 个 语义 值 ， 
可 用 wv [i]. num 或 v[i]. accepted 访问 ,不 用 考虑 对 top 的 维护 ) 。 

13. 下 面 的 属性 文法 (翻译 模式 )G [Nj 可 以 将 一 个 二 进 制 小 数 转换 为 十 进 制 小 数 , 令 
N. val 为 所 生成 的 二 进 制 数 的 值 。 例 如 ,对 输入 串 101. 101,N. val=5, 625。 


NS). S, {N. val :=S. val+2 5" X S,. val} 

S>S, B {S. val :=2 X S,. val+B. val; S. len += S,. len+ 1} 
S>B {S. val :=B. val; S. len :=1} 

B>0 {B. val :=0} 

Bl {B. val :=1} 


(1) 试用 本 章 介 绍 的 方法 消除 该 属性 文法 (翻译 模式 ) 中 的 左 递归 ,以 便 可 以 得 到 一 个 
自 上 而 下 进行 语义 计算 的 翻译 模式 。 

(2) 对 变换 后 的 翻译 模式 ,构造 一 个 递归 下 降 ( 预 测 ) 翻 译 程序 。 

14. 利用 构造 工具 lex 与 yace 上 机 实现 7. 3. 2 节 给 出 的 简单 计算 器 例子 。 

15. 参考 例 7.9 和 例 7. 10 给 出 的 -翻译 模式 ,设计 一 个 恰当 的 yace 描述 文件 ,使 相应 
的 语义 计算 程序 可 用 于 将 二 进 制 无 符号 定点 小 数 转化 为 十 进 制 小 数 。 上 机 实现 这 个 语义 计 
算 程序 (可 自行 编写 或 由 lex 自动 生成 函数 yylex())。 

16. 利用 构造 工具 lex 与 yacc, 实 现 与 第 4 章 练习 题 12 同样 功能 的 PL/0 词法 和 语法 
分 析 程 序 。 


> 194 > 


第 8 章 静态 语义 分 析 和 中 间 代 码 生成 


在 语义 分 析 阶 段 ,编译 器 计算 语义 信息 ,并 根据 这 些 信息 完成 静态 语义 分 析 , 进 而 生 
成 后 续 的 中 间 表 示 形 式 。 符 号 表 是 存储 语义 信息 的 重要 数据 结构 。 本 章 先 介绍 符号 表 
相关 的 内 容 , 然 后 讨论 静态 语义 分 析 和 中 间 代 码 生 成 的 主要 思想 和 方法 。 对 于 静态 语义 
分 析 和 中 间 代 码 生成 的 技术 环节 ,本 章 以 语法 制导 的 方法 为 主线 进行 介绍 ,并 补充 介绍 
多 遍 的 方法 。 


8.1 符 号 表 


8.1.1 符号 表 的 作用 


符号 表 是 编译 程序 用 到 的 最 重要 的 数据 结构 之 一 ,几乎 在 编译 的 每 个 阶段 每 一 遍 都 要 
涉及 符号 表 。 

符号 表 自 创建 后 便 开 始 被 用 于 收集 符号 (标识 符 ) 的 属性 信息 ,不 同 阶段 会 有 不 同 的 信 
息 。 例 如 ,编译 程序 在 分 析 处 理 到 下 述 两 个 说 明 语句 : 

int A; 

float B[5]; 
则 在 符号 表 中 收集 到 关于 符号 A 的 属性 是 一 个 整 型 变量 ,关于 符号 B 的 属性 是 具有 5 个 浮 
点 型 元 素 的 一 维 数组 。 

在 语义 分 析 中 ,符号 表 所 登记 的 内 容 是 进行 上 下 文 语义 合法 性 检查 的 依据 。 同 一 个 标 
识 符 可 能 在 程序 的 不 同 地 方 出 现 ,而 有 关 该 符号 的 属性 是 在 不 同情 况 下 收集 的 ,特别 是 在 多 
遍 编译 及 程序 分 段 编译 (以 文件 为 单位 ) 的 情况 下 ,更 需 检查 标识 符 属 性 在 上 下 文中 的 一 致 
性 和 合法 性 。 通 过 符号 表 中 的 属性 记录 可 进行 这 些 语 义 检查 。 例 如 ,在 C 语言 中 同一 个 标 
识 符 可 作 引 用 说 明 ,也 可 作 定 义 说 明 : 


int i [3, 5]; // 定 义 说 明 i 
extern float i; // 引 用 说 明 i 


按 编译 过 程 ,符号 表 中 首先 建立 标识 符 i 的 属性 是 3X5 个 整 型 元 素 的 数组 ,而 后 在 分 析 第 
二 个 说 明 时 ,标识 符 属性 是 浮 点 型 简单 变量 。 通 过 符号 表 的 语义 检查 可 发 现 其 不 一 致 错误 。 
又 例如 ,在 一 个 C 语言 程序 中 出 现 


int i [3, 5]; 
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float i [4, 2]; 


inti [3, 5]; 


编译 过 程 首 先 在 符号 表 中 记录 了 标识 符 i 的 属性 是 3X5 个 整 型 元 素 的 数组 ,而 后 在 分 析 第 
二 个 和 第 三 个 定义 说 明 时 编译 系统 可 通过 符号 表 检 查 出 标识 符 i 的 二 次 重 定义 冲突 错误 。 
本 例 还 可 以 看 到 ,不 论 在 后 两 句 中 i 的 其 他 属性 与 第 一 句 是 否 完全 相同 ,只 要 标识 符 名 重 定 
义 ,就 将 产生 重 定义 冲突 的 语义 错误 。 

在 目标 代码 生成 阶段 ,符号 表 是 对 符号 名 进行 地 址 分 配 的 依据 。 程 序 中 的 变量 符号 由 
它 被 定义 的 存储 类 别 和 被 定义 的 位 置 等 来 确定 将 来 被 分 配 的 存储 位 置 。 首 先 要 根据 存储 类 
别 确定 其 被 分 配 的 存储 区 域 。 例 如 ,在 C 语言 中 需要 确定 该 符号 变量 是 分 配 在 公共 区 
(extern) ,文件 静态 区 (extern static) ,函数 静 态 区 (函数 中 的 static) 还 是 函数 运行 时 的 动态 
区 (auto) 等 。 其 次 是 根据 变量 出 现 的 次 序 ( 一 般 来 说 是 先 声明 的 在 前 ) 来 决定 该 变量 在 某 个 
区 中 所 处 的 具体 位 置 ,这 通常 使 用 在 该 区 域 中 相对 于 起 始 位 置 的 偏 移 量 来 确定 。 而 有 关 区 
域 的 标志 及 相对 位 置 都 作为 该 变量 的 语义 信息 被 收集 在 该 变量 的 符号 表 属 性 中 。 

此 外 ,符号 表 的 组 织 与 结构 还 需要 体现 符号 的 作用 域 与 可 见 性 信息 。 


8.1.2 符号 的 常见 属性 


符号 表 中 可 以 存放 不 同 的 属性 ,以便 在 编译 的 不 同 阶段 使 用 。 不 同 的 语言 定义 的 标识 
符 属 性 不 尽 相同 ,但 下 列 几 种 通常 都 是 需要 的 。 
符号 的 名 字 。 这 是 每 个 符号 不 可 缺少 的 属性 。 在 符号 表 中 ,符号 名 常用 作 查 询 相 
应 表 项 的 关键 字 ,一 般 不 允许 重 名 。 根 据 语言 的 定义 ,程序 中 出 现 的 重 名 标识 符 
定义 将 按照 该 标识 符 在 程序 中 的 作用 域 和 可 见 性 规则 进行 相应 的 处 理 。 在 一 些 
允许 操作 重 载 的 语言 中 ,函数 名 、 过 程 名 是 可 以 重 名 的 ,对 于 这 类 重 载 的 标识 符 要 
通过 它们 的 参数 个 数 和 类 型 以 及 函数 返回 值 类 型 来 区 别 , 以 达到 它们 在 符号 表 中 
的 唯一 性 。 
符号 的 类 别 。 例 如 ,符号 可 分 为 常量 符号 、 变 量 符 号 、 过 程 /函数 符号 、 类 名 符号 等 不 
同 的 类 别 。 
符号 的 类 型 。 各 类 符号 一 般 会 有 类 型 ,如 常量 符号 .变量 符号 对 应 有 数据 类 型 。 画 
数 / 过 程 符号 也 可 以 有 类 型 (如 由 参数 类 型 和 返回 值 类 型 复合 而 成 的 函数 类 型 )。 符 
号 的 类 型 属性 决定 了 该 符号 所 标识 的 内 容 在 存储 空间 的 存储 格式 ,还 决定 了 可 以 对 
其 施加 的 运算 操作 。 
符号 的 存储 类 别 和 存储 分 配 信息 。 存 储 类 别 信息 如 : 该 符号 对 应 的 存储 是 在 数据 
等 。 存 储 分 配 信息 如 : 该 符号 数据 单元 的 大 小 ( 字 节 数 ) ,相对 某 个 存储 基地 址 的 偏 
移 位 置 ,等 等 。 
符号 的 作用 域 与 可 见 性 (参见 8.1.4 节 )。 
其 他 属性 。 体 现 不 同 数据 对 象 的 符号 属性 特征 可 能 差异 较 大 ,可 以 将 这 些 属性 分 开 
组 织 。 如 对 于 数组 ,符号 的 属性 包含 数组 内 情 向 量 ( 见 8. 3. 3. 3 节 ); 对 于 结构 体 或 
> 196 » 


类 ,符号 的 属性 应 包含 成 员 信息 ; 对 于 函数 /过 程 ,符号 的 属性 需要 包含 形 参 的 


8.1.3 符号 表 的 实现 


和 其 他 关于 表 的 数据 结构 类 似 , 针 对 符号 表 的 操作 通常 包含 以 下 几 个 : 

。 创建 符号 表 。 通 常 在 编译 开始 或 进入 一 个 作用 域 时 调用 创建 符号 表 操作 。 

。， 插 入 表 项 。 在 遇 到 新 的 符号 声明 时 进行 ,通常 是 插入 到 当前 作用 域 所 对 应 的 符 

。 查询 表 项 。 在 引用 符号 时 进行 。 

。 修改 表 项 。 在 获得 新 的 语义 值 信息 时 进行 。 

© 删除 表 项 。 在 符号 成 为 不 可 见 或 不 再 需要 它 的 任何 信息 时 进行 。 

。 释放 符号 表 空 间 。 在 编译 结束 前 或 退出 一 个 作用 域 时 进行 。 

符号 表 的 实现 需要 选择 适当 的 数据 结构 ,除了 需要 体现 符号 表 的 功能 和 作用 ,通常 也 需 
要 考虑 符号 表 操 作 的 方便 性 和 高 效 性 ,有 时 还 需要 考虑 节省 内 存 空 间 ( 如 某 些 运行 在 低 端 典 
入 设备 的 即时 编译 程序 会 有 这 样 的 需求 ) 。 

以 下 是 实现 符号 表 的 几 种 常用 数据 结构 : 

。 一 般 的 线性 表 , 如 数组 .链表 等 。 

有 序 表 。 访 问 时 较 无 序 表 快 ,例如 可 以 使 用 折 半 查找 算法 。 

。 二 又 搜索 树 。 

。 Hash #. 

实现 高 效 的 符号 表 组 织 与 管理 对 于 编译 程序 来 说 非常 重要 ,因为 它 在 各 阶段 都 要 被 频 
繁 访问 。 但 本 书 的 重点 不 在 于 此 , 故 不 对 此 进行 更 深入 的 讨论 。 

最 后 ,简要 讨论 一 下 编译 器 何 时 创建 符号 表 。 符 号 表 至 少 应 该 在 静态 语义 分 析 之 前 已 
经 创建 ,最 常见 的 情况 是 在 语法 分 析 的 同时 创建 。 如 果 词 法 分 析 程 序 单独 作为 一 遍 , 则 一 般 
不 可 能 承担 符号 表 创建 的 任务 (因为 不 能 获得 作用 域 信息 ) 。 如 果 词 法 分 析 程 序 是 被 语法 分 
析 器 调用 , 则 符号 表 的 相应 表 项 既 可 由 词法 分 析 程 序 写 入 ,也 可 由 语法 分 析 程 序 写 入 ,通常 
是 后 者 ,因为 可 以 在 同时 写 和 人 更 多 的 属性 信息 ,并 且 知 道 是 否 是 正在 声明 的 符号 (如 果 是 ,就 
创建 新 的 表 项 ,和 否则 只 是 更 新 表 项 的 属性 )。 当 由 词法 分 析 程 序 写 和 人 时 , 则 加 入 到 当前 作用 
域 对 应 的 符号 表 中 (符号 表 指 针 需 要 语法 分 析 程序 告知 ) ,可 以 包含 符号 名 、 属 性 值 . 位 置信 
息 等 。 符 号 表 在 语法 分 析 之 后 而 在 语义 检查 之 前 创建 也 是 很 常见 的 ,这 种 方法 容易 获得 符 
号 的 更 多 属性 ,也 容易 处 理 同一 作用 域内 随处 声明 的 符号 。 


8.1.4 符号 表 体 现 作用 域 与 可 见 性 


体现 符号 的 作用 域 与 可 见 性 是 符号 表 的 组 织 与 设计 中 一 个 重要 的 方面 。 

每 一 个 符号 在 程序 中 都 有 一 个 确定 的 有 效 范围 。 拥 有 共同 有 效 范围 的 符号 所 在 的 程序 
单元 就 构成 了 一 个 作用 域 (scope) 。 作 用 域 之 间 可 以 嵌 套 , 即 一 个 作用 域 可 以 被 另 一 个 作用 
域 包 围 , 称 为 嵌 套 的 作用 域 (nested scopes) 。 但 作用 域 之 间 不 会 交错 ,也 就 是 说 ,两 个 作用 
REE ARE (—PMAR TH — TP) ,要 么 不 相交 。 相 对 于 程序 中 特定 的 一 点 而 言 , 其 所 在 的 作用 
域 称 为 当前 作用 域 。 当 前 作用 域 与 包含 它 的 程序 单元 所 构成 的 作用 域 称 为 开 作 用 域 (open 
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scope) 。 不 属于 开 作 用 域 的 作用 域 称 为 闭 作用 域 (close scope)。 可 见 性 (visibility) 是 指 在 
程序 的 某 一 特定 点 哪些 符号 是 可 访问 的 ( 即 可 见 的 )。 程 序 语言 中 常用 的 可 见 性 规则 
(visibility rule) 如 下 : 

。 在 程序 的 任何 一 点 ,只 有 在 该 点 的 开 作 用 域 中 声明 的 符号 才 是 可 访问 的 。 


。 若 一 个 符号 在 多 个 开 作用 域 中 被 声明 , 则 把 离 该 符号 的 某 个 引用 最 近 的 声明 作为 该 
引用 的 解释 。 


。 新 的 声明 只 能 出 现在 当前 作用 域 。 

符号 的 可 见 性 还 与 具体 的 实现 相关 。 例 如 ,针对 面向 对 象 语言 的 继承 关系 ,其 实现 方式 
决定 了 父 类 作用 域 中 的 符号 能 否 被 直接 引用 (例如 ,C++ 语言 类 作用 域 中 有 private, 
protected 及 public 等 不 同类 别 的 属性 )。 又 如 ,根据 单 遍 的 PL/0 编译 器 所 实现 的 单 符号 表 
组 织 ,在 程序 的 特定 位 置 ,并 非 可 访问 当前 开 作用 域 中 的 所 有 符号 。 

另外 ,值得 注意 的 是 ,这 里 讲 到 的 “作用 域 ?是 指 在 静态 作用 域 规则 下 的 含义 。 多 数 常用 语 
言 都 是 采用 静态 作用 域 规则 。 与 此 不 同 的 是 动态 作用 域 规则 ,二 者 的 区 别 可 参见 9.2.4 节 。 

多 数 情 况 下 ,每 个 作用 域 都 有 自己 的 符号 表 , 称 为 多 符号 表 组 织 。 但 也 可 以 使 所 有 髓 套 
的 作用 域 共用 一 个 全 局 符号 表 , 称 为 单 符号 表 组 织 。 


8.1.4.1 作用 域 与 单 符号 表 组 织 


通常 , 单 符号 表 组 织 具有 以 下 特点 : 

。 所 有 岗 套 的 作用 域 共用 一 个 全 局 符号 表 。 

。 每 个 作用 域 都 对 应 一 个 作用 域 号 。 

， 仅 记录 开 作用 域 中 的 符号 。 

。 当 某 个 作用 域 成 为 闭 作用 域 时 ,从 符号 表 中 删除 该 作用 域 中 所 声明 的 符号 。 

下 面 举 一 个 单 符 号 表 组 织 的 例子 。 该 例子 中 ,采用 一 个 Hash 表 的 结构 来 组 织 全 局 符号 表 。 


图 8.1 是 一 段 (PL/0 程序 ) 代 码 。 当 处 理 到 程序 位 置 / x here * / 时 ,符号 表 的 当前 状 
态 如 图 8.2 所 示 。 


const a=25; 

Var x,y; 

procedure p; 
var z; 
begin 


end; 
procedure r; 
var x, s; 
procedure t; 
var v; 


Kaa =| t2) H pay H a 


end; =| x(2) | x(1) 
begin /*here*/ 


end; 
begin 


H s(2) Fe} (D) Fe} y) 


end. 


Hash# 
图 8.1 符号 表 与 作用 域 示例 程序 图 8.2 BASRA 
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图 8.2 中 ,各 符号 的 散 列 值 是 本 书 随意 假设 的 。 针 对 程序 位 置 / x here * /, 当 前 的 开 作 
用 域 包括 : 第 1 层 的 全 局 作用 域 , 含 符号 a(1)、x(1)、y(1)、p(1)、r(1); 第 2 层 的 由 过 程 rz 所 
辖 的 作用 域 , 含 符号 x(2) 、s(2)、t(2)。 这 里 ,各 符号 所 附加 的 数字 代表 符号 所 在 的 层次 号 。 
注意 ,图 8. 2 的 符号 表 中 不 包含 闭 作用 域 中 的 符号 ,如 过 程 p 所 辖 的 作用 域 中 的 符号 z(2) 
以 及 过 程 t 所 辖 的 作用 域 中 的 符号 v(3) 都 没有 出 现在 符号 表 中 。 

在 图 8. 2 的 符号 表 中 插入 一 个 符号 对 应 的 表 项 时 ,假定 是 插入 到 各 分 表 的 表 头 位 置 。 
这 样 , 当 某 个 符号 在 符号 表 中 出 现 多 个 副本 时 ,那么 离 该 符号 的 某 个 引用 最 近 声 明 的 副本 应 
作为 该 引用 的 解释 , 它 应 该 处 于 分 表 中 最 靠 前 的 位 置 。 例 如 ,在 程序 位 置 / * here * /处 , 引 
用 符号 x, 其 含义 是 指向 符号 x(2) 所 对 应 的 表 项 。 


8.1.4.2 ”作用 域 与 多 符号 表 组 织 


通常 ,多 符号 表 组 织 具有 以 下 特点 : 

。 每 个 作用 域 都 有 各 自 的 符号 表 。 

。 需要 维护 一 个 作用 域 栈 ,每 个 开 作用 域 对 应 栈 中 的 一 个 入 口 ,当前 的 开 作 用 域 出 现 

在 该 栈 的 栈 顶 。 

。 当 一 个 新 的 作用 域 打开 时 ,新 符号 表 将 被 创建 ,并 将 其 和 人 栈 。 

。 在 当前 作用 域 成 为 闭 作 用 域 时 ,从 栈 顶 弹出 相应 的 作用 域 。 

下 面 举 一 个 多 符号 表 组 织 的 例子 ,同样 使 用 图 8. 1 中 的 (PL/0 程序 ) 代 码 段 。 

当 处 理 到 程序 位 置 / * here * /时 ,符号 表 的 当前 状态 如 图 8. 3 所 示 。 

从 图 8. 3 可 见 ,这 一 代码 段 包 含 4 个 作用 域 ,分 别 
对 应 符号 集合 {a,x,y,psr},{x,s,t},{z}, 以 及 [vj]。 
这 里 ,前 两 个 作用 域 为 开 作 用 域 .它们 都 出 现在 当前 的 
作用 域 栈 上 ; 后 两 个 作用 域 为 闭 作用 域 ,不 出 现在 当 
前 的 作用 域 栈 上 。 

当 某 个 符号 在 开 作用 域 中 出 现 多 次 ,那么 离 该 符 
号 的 某 个 引用 最 近 声 明 的 副本 应 作为 该 引用 的 解释 ， 作用 域 栈 
它 应 该 是 指 离 栈 顶 最 近 的 作用 域 中 的 符号 。 例 如 ,在 图 8.3 多 符号 表 组 织 
程序 位 置 / * here * /处 ,引用 符号 x, 其 含义 是 指 作用 
域 {x,s,t} 中 的 符号 x, 

8.1.5 WAJ PL/0 符号 表 是 一 个 单 符号 表 组 织 的 实例 。 第 11 章 的 Decal 编译 器 符号 表 
是 一 个 多 符号 表 组 织 的 实例 ,同时 也 能 够 体现 出 实现 面向 对 象 语言 时 符号 表 设 计 的 一 些 


8.1.5 实例 : PL/0 编译 程序 中 符号 表 的 设计 与 实现 
8.1.5.1 PL/0 符号 表 的 设计 


| PER 


符号 表 用 来 存放 标识 符 的 属性 信息 。PL/0 中 的 标识 符 有 3 类 : 常量 标识 符 、 变 量 标识 
符 和 过 程 标识 符 。 因 此 ,符号 表 中 需要 记录 标识 符 的 类 别 信息 。 
PL/0 中 数据 类 型 只 有 整 型 ,所 以 设计 符号 表 时 可 不 考虑 数据 类 型 信息 。 变 量 只 有 简 
单 变量 , 且 都 是 整 型 变量 。 
PL/0 中 可 以 有 嵌 套 的 过 程 说 明 ,为 了 实现 对 过 程 标识 符 和 变量 标识 符 的 正确 访问 , 需 
» 199 > 


要 在 符号 表 中 记录 它们 所 在 过 程 的 层次 信息 。 主 过 程 的 层次 为 0, 主 过 程 中 说 明 的 过 程 层 
次 为 1, 层 次 为 1 的 过 程 中 说 明 的 过 程 层 次 为 2, 以 此 类 推 。 

对 于 常量 标识 符 来 说 , 则 需要 在 符号 表 中 记录 它 所 代表 的 常数 值 。 

在 代码 生成 时 还 需要 知道 变量 在 运行 时 相对 于 过 程 活动 记录 (参见 9. 2. 1 节 ) 基 址 的 偏 
移 位 置 。 在 附录 A 的 PL/0 编译 程序 实现 中 ,过 程 活动 记录 的 头 3 个 单元 用 于 存放 控制 信 
息 , 局 部 变量 依次 存放 于 其 后 。 因 此 ,对 于 变量 标识 符 , 符 号 表 中 需要 记录 的 对 应 于 它们 的 
偏 移 地 址 依次 为 DX,DX 十 1,DX 十 2,…, 其 中 DX=3. 

另外 ,实现 过 程 调用 时 首先 要 设置 过 程 活动 记录 的 初始 大 小 , 它 将 被 置 为 size= DX + 
m, 这 里 DX 二 3,m 为 过 程 中 局 部 变量 的 数目 。 因 此 ,对 于 过 程 标识 符 , 符 号 表 中 含有 记录 
size 的 信息 。 

PL/0 编译 程序 的 符号 表 采 用 单 表 组 织 , 所 有 赃 套 的 作用 域 共用 一 个 全 局 符号 表 table, 
其 数据 结构 定义 如 下 : 


enum object{ 
constant, 
variable, 
procedure 
bs 


struct tablestruct{ 


char name[al]; /* al 为 名 字 最 大 长 度 * / 

enum object kind; /* 标识 符 的 类 别 信 息 */ 

int val; /* 常量 标识 符 所 代表 的 常数 值 * / 

int level; /* 标识 符 所 在 的 层 ( 常 量 标识 符 不 用 ) / 

int adr; /* 变量 标识 符 的 偏 移 地 址 * / 

int size; /* 过 程 活动 记录 的 初始 数据 区 大 小 , 仅 过 程 标识 符 用 到 * / 


de 
struct tablestruct table[txmax]; /* txmax 为 符号 表 容 量 * / 


例如 , 设 有 如 下 PL/0 程序 片段 : 
CONST A=35, B=49; 
VAR C, D, E; 


PROCEDURE P; 
VAR G; 


当 PL/0 分 析 过 程 在 扫描 过 该 程序 片段 的 说 明 部 分 后 ,符号 表 中 的 标识 符 信息 如 图 8. 4 
所 示 。 其 中 ,LEYV 为 当前 过 程 的 层次 ,DX 一 3。 


8.1.5.2 作用 域 与 可 见 性 


PL/0 程序 中 ,每 个 分 程序 对 应 一 个 作用 域 。PL/0 编译 程序 的 分 析 过 程 中 ,正在 处 理 

的 分 程序 对 应 当前 作用 域 ,当前 作用 域 以 及 包含 它 的 所 有 作用 域 构成 开 作 用 域 ,其 他 作用 域 

是 闭 作 用 域 。 对 于 程序 内 的 任意 一 点 ,分 析 过 程 处 理 到 这 一 点 时 开 作用 域 中 的 标识 符 是 可 

见 的 ,而 闭 作 用 域 中 的 标识 符 是 不 可 见 的 。 由 于 PL/0 编译 程序 的 符号 表 采 用 单 表 组 织 , 因 
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NAME:A | KIND: CONSTANT | VAL:35 
NAME:B | KIND: CONSTANT VAL: 49 
NAME: C | KIND: VARIABLE LEVEL: LEV ADDR: DX 

NAME: D | KIND: VARIABLE LEVEL: LEV ADDR:DX+1 
NAME: E | KIND: VARIABLE LEVEL: LEV ADDR:DX+2 
NAME: P | KIND: PROCEDURE | LEVEL: LEV ADDR: SIZE: 4 


NAME: G | KIND: VARIABLE LEVEL: LEV+1 | ADDR:DX 


图 8.4 PL/0 编译 程序 符号 表 


此 分 析 过 程 处 理 到 程序 中 某 一 点 时 ,当前 符号 表 中 的 标识 符 对 应 于 这 一 点 的 所 有 开 作 用 域 
中 的 标识 符 , 而 所 有 闭 作用 域 中 的 标识 符 都 不 在 当前 符号 表 中 。 实 际 上 ,可 以 将 符号 表 看 作 
一 个 栈 , 随 着 分 析 过 程 的 进行 ,符号 表 栈 的 内 容 随 之 改变 。 主 过 程 作用 域 中 的 标识 符 总 是 处 
于 栈 的 底部 ,而 当前 正在 扫描 的 分 程序 作用 域 中 的 标识 符 处 于 栈 的 项 部。 

例如 ,对 于 图 8. 1 中 的 PL/0 程序 片段 , 当 分 析 过 程 进行 到 / x here * /时 ,符号 表 的 内 容 
如 图 8.5 所 示 。 


name kind val/level addr size 
a constant 25 
x variable 0 DX 
y variable 0 DX+1 
p procerdur 0 4 
f procerdur 0 5 
x variable 1 DX 
S variable 1 DX+1 
t procerdur 1 4 


图 8.5 实例 : PL/O 符号 表 所 体现 的 作用 域 与 可 见 性 


容易 看 出 ,在 /* here* /这 一 点 , 主 过程 和 过 程 r 的 分 程序 所 对 应 的 作用 域 是 开 作 用 
域 ,所 以 这 些 作 用 域 中 的 标识 符 出 现在 符号 表 栈 中 ; 而 曾经 出 现在 符号 表 中 的 标识 符 z 和 v 
所 在 的 作用 域 在 成 为 闭 作用 域 时 ,这 些 标识 符 的 记录 就 被 从 符号 表 中 删除 。 

另外 , 若 一 个 标识 符 在 多 个 开 作用 域 中 被 声明 , 则 把 离 该 标识 符 的 某 个 引用 最 近 的 作用 
域 中 的 声明 作为 该 引用 的 解释 。 从 图 8. 5 可 知 ,在 / * here * /这 一 点 所 看 到 的 标识 符 x 是 
指 第 1 层 即 过 程 + 中 声明 的 x, 而 不 是 主 过 程 中 所 声明 的 x。 


8.1.5.3 符号 表 的 操作 

PL/0 编译 程序 中 对 符号 表 的 维护 操作 主要 有 3 类 : 登录 、 查 询 以 及 删除 。 

登录 操作 将 在 符号 表 中 新 增 一 个 符号 表 的 记录 ,该 操作 定义 为 

void enter(enum object k,int * ptx,int lev,int * pdx); 
其 中 ,k 是 标识 符 种 类 ; ptx 是 符号 表 尾 指针 的 指针 ,填写 标识 符 信 息 后 将 加 1; lev 是 标识 
符 所 在 的 层次 ; pdx 是 分 配给 变量 标识 符 的 相对 地 址 ,填写 后 将 增加 1。 


例如 ,对 于 分 程序 中 的 变量 说 明 部 分 (参见 第 4 ER 4. 3 中 定义 二 分 程序 二 的 规则 ): 
* 201 > 


var 一 变量 定义 二 { ,到 变量 定义 之 }; 
其 处 理 过 程 将 调用 enter 在 符号 表 中 登录 一 个 新 的 变量 标识 符 记 录 。 以 下 是 附录 A 中 与 之 
相关 的 程序 代码 片段 : 


if (sym==varsym) { /#* 收 到 变量 声明 符号 ,开始 处 理 变量 声明 / 
getsymdo; /* 调用 getsym () 的 宏 * / 
dof 
vardeclarationdo(&tx，lev，&dx); /* 添加 符号 表 信息 * / 
while (sym 一 一 comma){ 
getsymdo; 


vardeclarationdo( & tx. lev, &-dx); 
} 
if (sym==semicolon) { 
getsymdo; 
} 
else error(5) 3 
} while (sym==ident) ; 


} 


int vardeclaration(int * ptx,int lev,int * pdx) 


/* ptx 为 符号 表 尾 位 置 ，lev 为 当前 层 ,pdx 为 在 当前 层 的 偏 移 量 * / 
{ 
if (sym= = ident) { 


enter(variable, ptx, lev, pdx); /* 填写 符号 表 * / 
getsymdo; 
} 
else error(4); /* var 后 应 是 标识 符 * / 
return 0; 


} 
查询 操作 将 从 符号 表 栈 顶 开 始 查找 某 标识 符 是 否 在 符号 表 中 ,该 操作 定义 为 
int position(char * idt,int tx); 


其 中 ,idt 是 被 查 标识 符 名 字 串 ,tx 是 符号 表 栈 当 前 栈 顶 的 位 置 。 该 操作 返回 所 查 标识 符 在 
符号 表 栈 中 的 位 置 , 没 查 到 则 返回 0。 

在 处 理 语句 中 变量 引用 时 会 调用 position 函数 查询 符号 表 , 看 是 否 有 过 正确 定义 。 若 
已 有 , 则 从 表 中 取 相 应 的 信息 , 供 代码 的 生成 使 用 ; 若 无 定义 则 报错 。 在 查 表 的 过 程 中 ,从 
符号 表 栈 的 顶部 开始 ,保证 每 个 过 程 的 局 部 变量 在 生成 代码 时 先 被 看 到 ,其 次 是 它 的 直接 外 
过 程 中 的 变量 ,依次 类 推 。 

例如 ,对 于 如 下 定义 的 赋值 语句 (参见 表 4. 3) : 

去 语句 > ::= 二 id>>: 王 二 表达 式 > 
处 理 过 程 会 调用 position 函数 .以 下 是 附录 A 中 与 之 相关 的 程序 代码 片段 : 

if (sym==ident) { /* 准备 按照 赋值 语句 处 理 * / 

i=position(id, * ptx); 
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if G==0t 


error(11); /* 变量 未 找到 * / 
} 
else{ 
if (table[i]. kind! =variable) { 
error(12); /* 赋值 语句 格式 错误 * / 
i=0; 
} 
else{ 
gendo(sto, ++); /* 生成 目标 代码 */ 


} 


最 后 讨论 一 下 删除 操作 。 当 过 程 代 码 生 成 完毕 ,过程 的 局 部 变量 在 符号 表 中 将 被 删除 。 
值得 注意 的 是 ,附录 A 的 PL/0 编译 程序 中 是 通过 将 全 局 量 lev 和 tx 恢复 至 递归 调用 前 的 
值 来 做 到 这 一 点 的 。 


8.2 静态 语义 分 析 


程序 的 语义 是 指 在 为 程序 单元 赋予 一 定 含义 时 程序 应 该 满足 的 性 质 。 通 常 ,语义 是 多 
方面 的 ,并 且 相 比 于 词法 和 语法 来 说 更 加 难以 定义 。 静 态 语义 刻画 程序 在 静态 一 致 性 或 完 
整 性 方面 的 特征 ,而 动态 语义 刻画 程序 执行 时 的 行为 。 编 译 器 根据 语言 的 静态 语义 规则 完 
成 静态 语义 分 析 。 静 态 语义 分 析 过 程 中 若 发 现 程序 有 不 符合 静态 语义 规则 之 处 , 则 报告 语 
义 错误 ; 若 没有 语义 错误 , 则 称 该 程序 通过 了 静态 语义 检查 。 仅 当 程 序 已 通过 静态 语义 检 
BE ,编译 器 才 进一步 根据 语言 的 动态 语义 完成 后 续 的 中 间 代 码 或 目标 代码 生成 。 若 要 求 程 
序 在 运行 时 的 行为 进行 一 定 的 检查 ( 称 为 动态 语义 检查 ,如 避免 除 零 .数组 越界 等 ), 则 需要 
生成 相应 的 代码 。 

本 节 主 要 讨论 静态 语义 分 析 工 作 。 首 先 简 述 常见 的 静态 语义 分 析 任 务 ,随后 以 类 型 检 
查 作为 重点 进行 介绍 。 


8.2.1 静态 语义 分 析 的 主要 任务 


编译 器 在 静态 语义 分 析 阶 段 收集 程序 结构 (控制 结构 和 数据 结构 ) 相 关 的 语义 信息 ,在 
此 过 程 中 同时 进行 静态 语义 检查 。 若 程序 可 以 顺利 通过 静态 语义 检查 , 则 部 分 语义 信息 会 
进一步 用 于 中 间或 目标 代码 生成 。 
静态 语义 检查 的 工作 是 多 方面 的 ,取决 于 不 同 的 语言 和 不 同 的 实现 。 最 基本 的 工作 就 
是 检查 程序 结构 (控制 结构 和 数据 结构 ) 的 一 致 性 或 完整 性 ,例如 : 
。 控制 流 检查 。 控 制 流 语句 必须 使 控制 转移 到 合法 的 地 方 。 例 如 ,一 个 跳 转 语句 会 使 
控制 转移 到 一 个 由 标号 指明 的 后 续 语 名 ,如 果 标 号 没有 对 应 到 语句 ,那么 就 出 现 一 
个 语义 错误 ; 另外 ,这 一 后 续 语 句 通常 必须 出 现在 和 跳 转 语句 相同 的 块 中 ; 又 如 ， 
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break 语句 必须 有 合法 的 语句 包围 它 ; 等 等 。 
唯一 性 检查 。 某 些 对 象 , 如 标识 符 、 枚 举 类 型 的 元 素 等 ,在 源 程序 的 一 个 指定 上 下 文 
范围 内 只 允许 定义 一 次 ,因此 ,语义 分 析 要 确保 它们 的 定义 是 唯一 的 。 
名 字 的 上 下 文 相关 性 检查 。 在 源 程序 中 ,名 字 的 出 现在 遵循 作用 域 与 可 见 性 前 提 下 
应 该 满足 一 定 的 上 下 文 相 关 性 ,如 果 不 满足 ,就 需要 报告 语义 错误 或 警告 信息 。 例 
如 ,变量 在 使 用 前 必须 经 过 声明 ,在 外 部 不 能 访问 私有 变量 ,类 声明 和 类 实现 之 间 需 
要 规定 相应 的 匹配 关系 ,向 对 象 发 送 消息 时 所 调用 的 方法 必须 是 该 对 象 的 类 中 合法 
定义 或 继承 的 方法 ,等 等 。 
类 型 检查 。 例 如 ,运算 的 类 型 检查 需要 搞 清 楚 运 算数 是 否 与 给 定 运算 兼容 ,如 果 不 
兼容 , 它 就 要 采取 适当 的 动作 来 处 理 这 种 不 兼容 性 ,或 者 是 指出 错误 ,或 者 是 进行 自 
动 类 型 转换 ; 又 如 , 源 程序 中 使 用 的 标识 符 是 否 已 声明 过 或 者 是 否 与 已 声明 的 类 型 
相 矛 盾 ( 同 样 也 可 以 看 作 是 名 字 上 下 文 相关 性 的 一 种 约束 条 件 ); 等 等 。 

类 型 检查 或 许 是 语义 分 析 阶 段 最 重要 的 工作 。 理 论 上 ,以 上 提 到 的 各 种 检查 都 可 以 划 
归 类 型 检查 ,因而 在 今后 的 讨论 中 ,类 型 检查 即 指 静 态 语义 检查 。 注 意 ,本 书 所 涉及 的 类 型 
检查 工作 都 是 指 静态 类 型 检查 。 

静态 语义 分 析 的 工作 中 有 许多 可 以 较 方便 地 采用 语法 制导 的 方法 来 实现 ,但 有 一 些 并 
不 容易 ,需要 借助 于 多 遍 的 方法 来 处 理 。 然 而 ,无 论 采 取 单 遍 还 是 多 遍 的 实现 方案 ,采用 属 
性 文法 /翻译 模式 进行 设计 阶段 的 描述 都 是 很 有 意义 的 。 在 8. 2. 2 节 里 重点 讨论 借助 语法 
制导 的 方法 来 实现 一 个 简单 语言 的 类 型 检查 。 

语义 分 析 的 另外 一 项 工作 是 收集 语义 信息 ,这 些 信息 服务 于 语义 检查 或 后 续 的 代码 生 
成 。8.2.2 节 中 ,在 讨论 语义 检查 时 会 涉及 其 中 一 部 分 内 容 , 而 另外 一 些 内 容 ( 如 过 程 数 组 
声明 的 处 理 ) 将 合并 到 8. 3 节 进 行 讨论 。 


8.2.2 类 型 检查 


类 型 检查 程序 负责 类 型 检查 工作 ,主要 包括 以 下 内 容 : 

。 验证 程序 的 结构 是 否 匹 配 上 下 文 所 期 望 的 类 型 。 

。 为 代码 生成 阶段 搜集 及 建立 必要 的 类 型 信息 。 

。 实现 某 个 类 型 系统 。 

为 示范 类 型 检查 程序 的 设计 ,图 8.6 描述 了 一 个 简单 语言 的 上 下 文 无 关 文 法 GLP]。 其 中 
num,id,int 以 及 real 分 别 对 应 数字 、 标 识 符 、 整 型 数 以 及 实 型 数 的 单词 符号 ; op 以 及 rop 对 应 
算术 运算 符 以 及 关系 运算 符 , 为 简化 讨论 ,未 指定 具体 的 运算 ,后 面 在 需要 的 时 候 再 行 细 化 (其 
中 op 还 有 可 能 是 逻辑 运算 符 , 以 及 增加 一 元 运算 的 表达 式 ); array [num] of 和 ELE] 分 别 为 
数组 声明 和 数组 元 素 访问 ;“ 工 声明 指针 类 型 ,而 E 表示 对 指针 所 指 对 象 的 访问 。 


8.2.2.1 类 型 表达 式 和 类 型 系统 


在 设计 类 型 检查 程序 时 ,首先 需要 为 程序 单元 赋予 类 型 的 含义 ,即使 用 类 型 表达 式 对 其 
进行 解释 。 类 型 表达 式 是 由 基本 类 型 .类 型 名 字 、 类 型 变量 及 类 型 构造 子 通过 归纳 定义 得 到 
的 表达 式 。 

例如 ,针对 上 述 简单 语言 ,可 定义 如 下 类 型 表达 式 的 集合 : 
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P—+D;S 

D>V;F 

V>V;TL|e 

了 一 boolean | integer | real | array [num] of T| ^T 

L—> L, id | id 

S — id:=E | if E then S | if E then S else S| while £ then S | S;S | break | call id (A) 
E —> true | false | int | real | id | E op E | E rop E | E[E]| E^ 

F>F;id(V)S|e 

A—A,Ele 


图 8.6 一 个 简单 语言 的 文法 


基本 数据 类 型 表达 式 : bool,int,real。 
有 界 数组 类 型 表达 式 : array(T,T)。 其 中 , 工 是 基本 数据 类 型 表达 式 , 工 代表 一 个 整 
数 区 间 ( 如 1..10 表示 从 1 到 10 的 整数 集合 ) 。array(T,T) 表示 元 素 类 型 是 了 ,下 
标 集 合 是 工 的 数组 类 型 。 
指针 数据 类 型 表达 式 : pointer(T)。 其 中 ,T 是 基本 数据 类 型 表达 式 。pointer(T) 
表示 指向 类 型 为 工 的 对 象 的 指针 类 型 。 
FAR RIK KT, Tre T, >. HP, T Te T, nO) RA ER 3 种 数据 类 
型 表达 式 ; 若 x 一 0, 则 表示 为 一 >。 
过 程 类 型 表达 式 : fun(T)。 其 中 ,T 是 上 述 积 类 型 表达 式 。 
类 型 表达 式 type_error 专用 于 有 类 型 错误 的 程序 单元 。 
类 型 表达 式 ok 专用 于 没有 类 型 错误 的 程序 单元 。 

读者 可 以 根据 需要 修改 或 扩充 类 型 表达 式 的 种 类 。 例 如 , 若 语言 中 定义 了 函数 而 不 是 
过 程 , 则 很 容易 将 以 上 过 程 类 型 表达 式 修改 为 某 种 函数 类 型 表达 式 。 

显然 ,本 书 没有 涉及 更 复杂 的 类 型 表达 式 , 如 递归 类 型 高 阶 类 型 等 ,这 超出 了 本 书 的 范 
围 。 同 时 ,为 简化 讨论 ,本 书 也 没有 引入 类 型 名 字 和 类 型 变量 。 

将 类 型 表达 式 赋 给 程序 各 个 部 分 的 规则 集合 就 构成 一 个 类 型 系统 。 通 常 ,类 型 系统 是 
由 类 型 检查 程序 实现 的 ,参见 8. 2. 2. 2 节 中 的 例子 。 

还 可 以 采用 形式 化 的 类 型 规则 集合 严格 地 描述 一 个 类 型 系统 的 设计 。 但 限于 篇 幅 , 本 
书 不 涵盖 这 方面 的 内 容 。 


8.2.2.2 语法 制导 的 类 型 检查 


下 面 以 图 8.6 的 简单 语言 为 例 , 讨 论 实现 类 型 检查 的 属性 文法 /翻译 模式 设计 ,主要 工 
作 是 将 类 型 表达 式 作 为 属性 值 赋 给 程序 各 个 部 分 ,实现 相应 语言 的 一 个 类 型 系统 。 

以 下 是 与 声明 相关 的 翻译 模式 片段 ,其 作用 是 计算 变量 声明 相关 语法 单位 的 类 型 信息 ， 
并 保存 标识 符 的 类 型 信息 至 符号 表 : 


V>V,; T {L.in?=T. type} L(V. type :=make product_3 (Vi. type. T. type. L. num)} 


{ 
V—>e {V. type += <>} 
T—>boolean {T. type := bool} 
T—>integer {T. type :一 int} 
T—real {T. type := real} 
{ 


T—array[num]of T, T. type *=array(1.. num. lexval, T,. type) } 
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rT; {T. type *=pointer(T). type) } 

L>{L, *in*=L s in} Lys id {addtype(id. entry, L.in); L. num ?=L,.num+1} 

工 一 id {addtype(id. entry, L. in); L. num :=1} 
其 中 ,num. lexval 为 词法 分 析 返 回 的 单词 属性 值 (单词 自身 的 值 ) ,id. entry 指向 当前 标识 符 
对 应 于 符号 表 中 的 表 项 ,语义 函数 addtype(id. entry, L. in) 表示 将 属性 值 L. in 填 入 当前 标 
识 符 在 符号 表 的 表 项 中 的 type 域 ( 记 录 标 识 符 的 类 型 ) ,语义 函数 make_product_3( 二 4， 
trst lm >> type ,n) 生成 积 类 型 表达 式 二 1 ,12 ,… sims type s**t type > (A n Ù typer). 
在 这 个 翻译 模式 片段 中 工 . in 为 继承 属性 ,T. type Al V. type 为 综合 属性 。 

为 方便 讨论 ,过 程 声明 部 分 相关 的 翻译 模式 片段 随 语 句 部 分 一 起 给 出 。 

以 下 是 与 表达 式 相 关 的 翻译 模式 片段 ,其 作用 是 计算 表达 式 相 关 语 法 单位 的 类 型 信息 ， 
同时 检查 表达 式 中 运算 数 类 型 与 给 定 运算 是 否 兼 容 : 


E> true {E. type := bool} 

E> false {E. type := bool} 

E>int {E. type :一 int} 

E~real {E. type += real} 

E>id {E. type :=if lookup_type(id. name) =nil then type_error 


else lookup_type(id. name) } 
E>Eop E; (E. type *=if E,. type=real and Ez. type=real then real 
else if Ei. type 一 int and E,. type=int then int 
else type_error} 
E—>E;rop E; (E. type :=if 忆 .type 一 real and Ez. type=real then bool 
else if E,. type=int and E}. type=int then bool 
else type_error} 
E>E\(E.] (E. type :=if Ez. type=int and Ei. type=array(s, 1) then £ 
else type_error} 
E>E,~ {E. type :=if Ei. type=pointer(¢) then ¢ 
else type_error} 
其 中 ,id. name 为 当前 标识 符 的 名 字 ; 语义 函数 lookup_type(id. name) 从 符号 表 中 查找 名 
FH id. name 的 标识 符 所 对 应 的 表 项 中 type 域 的 内 容 , 若 未 查 到 该 表 项 或 表 项 中 的 type 
域 无 定义 , 则 返回 nil。 
以 下 是 与 语句 及 过 程 声明 相关 的 类 型 检查 的 翻译 模式 片段 
S>id:=E {S. type :=if lookup_type (id. entry) =E. type 
then ok else type_error} 
Sif E then S, {S. type :=if E. type=bool then Si. type else type_error} 
Sif E then S, else S: {S. type :=if E. type=bool and S,. type=ok and Sz. type=ok 
then ok else type_error} 
Swhile E then S, {S. type :=if E. type=bool then S,. type else type_error} 
S51; Sz {S. type :=if Sı. type=ok and Sz. type=ok 
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then ok else type_error} 
S—>break {S. type :一 ok} 
S—>call id (A) {S. type *=if match (lookup_type(id. name), A. type) 
then ok else type_error} 
FF); id (V) S {addtype(id. entry, fun(V. type) ); 
F. type :=if Fi. type=ok and S. type=ok 


then ok else type_error} 


Foe {F. type :一 ok} 
AA, E {A. type *=make_product_2(Aj. type. E. type) } 
Ae {A. type '*=<>} 


其 中 ,语义 函数 make_product_2(<ty tz» *** sim > + types) 生成 积 类 型 表达 式 二 4 ,4 eels 
type, >; 语义 函数 match(fun(type, ) ,types ) 返回 true 当 且 仅 当 type, Al type, 是 完全 相 
同 的 积 类 型 表达 式 ( 即 二 者 有 同样 多 的 分 量 , 且 每 个 分 量 都 相同 )。 


最 后 ,补充 如 下 翻译 模式 片段 : 

P>D;S {P. type :=if D. type= ok and S. type=ok 
then ok else type_error} 

D>V; F {D. type :=F. type} 


容易 理解 ,如 果 P. type 的 计算 结果 为 ok, 则 对 应 的 输入 程序 即 通过 了 类 型 检查 。 
读者 可 能 已 经 注意 到 ,上 述 翻 译 模式 没有 对 break 语句 进行 如 下 检查 : break 语句 只 能 
出 现在 某 个 循环 语句 内 , 即 至 少 有 一 个 包围 它 的 while 语句 。 可 以 通过 引入 继承 属性 
S. break 来 解决 这 一 问题 ,以 下 仅 列 出 有 变化 的 产生 式 : 
PD; {S. break :=0} S 
{P. type *=if D. type=ok and S. type 一 ok then ok else type_error} 


S> if E then {S,. break :一 S. break} S, 
{S. type *=if E. type=bool then Si. type else type_error} 
S> if E then {S,. break :一 S. break} S, else {S,. break :一 S. break} S, 


{S. type *=if E. type=bool and Si. type=ok and Sz. type=ok 
then ok else type_error} 

S-while E then {Si. break :=1} S, 

{S. type :=if E. type=bool then S,. type else type_error} 
S—(S,. break :=S. break} S,; {S,. break :=S. break} S, 

{S. type *=if S,. type=ok and Sz. type=ok then ok else type_error} 
S~>break { 
FF); id (V) {S. break :=0} S 

{addtype(id. entry. fun (V. type)); 


S. type :=if S. break=1 then ok else type_error} 


F. type *=if Fi. type=ok and S. type=ok then ok else type_error} 
下 面 简 要 讨论 一 下 上 述 翻 译 模式 片段 的 语义 计算 问题 。 单 独 看 这 一 小 节 出 现 的 几 个 翻 
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译 模式 片段 ,第 一 个 翻译 模式 片段 (用 于 计算 变量 声明 相关 语法 单位 的 类 型 信息 ) 是 工 -翻译 
模式 ,其 基础 文法 是 LR 文法 , 且 能 入 在 产生 式 中 间 的 语义 动作 只 有 复写 规则 ,因此 可 以 采 
用 自 下 而 上 方式 进行 语义 计算 。 第 二 个 翻译 模式 片段 (与 表达 式 相关 的 类 型 检查 ) 和 第 三 个 
翻译 模式 片段 (与 语句 及 过 程 声 明 相 关 的 类 型 检查 ) 是 S- 翻 译 模式 ,虽然 其 基础 文法 不 是 
LR 文法 ,但 可 以 通过 规定 优先 级 、 结 合 性 和 最 近 嵌 套 匹 配 等 方法 构造 出 适当 的 LR 分 析 表 ， 
因此 可 以 采用 自 下 而 上 方式 进行 语义 计算 。 最 后 一 个 翻译 模式 片段 (在 前 面 翻 译 模式 基础 
上 增加 break 语句 相关 的 处 理 ) 是 二- 翻译 模式 ,类 似 于 第 三 个 翻译 模式 片段 ,针对 其 基础 文 
法 也 可 以 构造 适当 的 LR 分 析 表 ; 虽然 嵌入 在 产生 式 中 间 的 语义 动作 含有 非 复写 规则 
(S. break :二 0) ,但 只 要 对 翻译 模式 片段 稍 加 修改 (引入 新 的 文法 符号 ,添加 相应 的 e- 产 生 
式 ) 就 可 以 变换 为 适合 自 下 而 上 语义 计算 的 翻译 模式 。 因 此 ,将 这 些 翻译 模式 片段 整合 起 来 
的 翻译 模式 (或 稍 加 变换 ) 能 够 满足 语法 制导 语义 计算 的 要 求 。 对 于 本 章 后 续 部 分 的 翻译 模 
式 片 段 , 设 计时 都 考虑 到 了 其 语法 制导 语义 计算 的 可 行 性 问题 ,届时 将 不 再 重复 解释 了 。 


8.3 中 间 代 码 生 成 


中 间 代 码 是 源 程序 的 不 同 表示 形式 ,也 称 为 中 间 表 示 ,其 作用 如 下 : 
。 用 于 源 语言 和 目标 语言 之 间 的 桥梁 , 避 开 二 者 之 间 较 大 的 语义 跨度 ,使 编译 程序 的 
逻辑 结构 更 加 简单 明确 。 

。 利于 编译 程序 的 重 定向 。 

。 利于 进行 与 目标 机 无 关 的 优化 。 

如 果 源 程序 的 词法 .语法 和 语义 正确 ,编译 程序 通常 会 将 这 个 源 程序 翻译 到 机 器 无 关 的 
中 间 表 示 形 式 。 在 实现 一 个 语言 时 ,可 能 会 用 到 不 同 层次 的 多 种 中 间 表 示 形 式 , 称 为 多 级 中 
间 表 示 。 由 源 程 序 翻译 到 第 一 级 中 间 表 示 ,再 翻译 到 后 面 一 级 中 间 表 示 ,最 后 一 级 中 间 表 示 
将 被 翻译 为 机 器 相关 的 目标 代码 。 


8.3.1 常见 的 中 间 表 示 形 式 


中 间 表 示 形 式 有 不 同 层次 .不同 目 的 之 分 。 下 面 列举 几 种 中 间 表 示 形 式 ， 
。 AST(Abstract Syntax Tree. 抽象 语法 树 , 简称 语法 树 ), 及 其 改进 形式 DAG 
(Directed Acyclic Graph. AM AMA). 
TAC(Three-Address Code, 三 地 址 码 或 四 元 式 ) 。 

。 P-code( 用 于 Pascal 语言 实现 ) 。 

。 Bytecode(Java 编译 器 的 输出 ,Java 虚拟 机 的 输入 ) 。 

。 SSA(Static Single Assignment form ,静态 单 赋值 形式 ) 

例如 ,算术 表达 式 A 十 Bx (C 一 D) 十 E/CC 一 D) N 的 一 种 AST 和 DAG 表示 分 别 如 
图 8.7(a) 和 (b) 所 示 。 抽 象 语法 树 中 每 一 个 子 树 的 根 结 点 都 对 应 一 种 动作 或 运算 , 它 的 所 有 
子 结 点 对 应 该 动作 或 运算 的 参数 或 运算 数 。 参 数 或 运算 数 也 可 以 是 另 一 个 子 树 ,代表 另 一 动 
作 或 运算 。 有 向 无 圈 图 在 语法 树 的 基础 上 ,对 某 些 执行 同样 动作 或 运算 的 子 树 进行 了 合并 。 

该 表达 式 的 一 种 TAC 表示 如 图 8. 8 所 示 。TAC 是 一 组 顺序 执行 的 语句 序列 ,其 语句 
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图 8.7 抽象 语法 树 和 有 向 无 圈 图 


可 以 表示 为 如 下 形式 : 
xt=yopz 
其 中 ,op 为 运算 符 ,y 和 < 为 运算 数 ,z 为 运算 结果 。 语 句 或 者 可 采用 四 元 式 形式 表示 为 
(op y z x) 

TAC 中 ,op 可 以 表示 任意 2 元 以 下 运算 或 操作 ,因此 ,xz、y、z 中 的 每 个 位 置 都 有 可 能 
为 空 。 

P-code 和 Bytecode 是 具体 程序 设计 语言 专用 的 中 间 代 码 形 式 , 有 需要 的 读者 可 参考 相 
关 的 技术 手册 。 

静态 单 赋值 (SSA) 形 式 借鉴 了 纯 函 数 式 语 言 的 定义 唯一 性 特点 。“ 单 赋值 ”的 含义 是 : 
程序 中 的 名 字 仅 有 一 次 赋值 。 在 SSA 形式 中 ,在 使 用 一 个 名 字 时 仅 关联 于 唯一 的 “ 定 值 
点 ”。 此 一 特性 使 得 沿 着 DU 链 ( 参 见 第 10 章 ) 的 程序 分 析 信息 可 以 进行 代数 蔡 换 ,因此 十 
分 有 利于 程序 分 析 和 优化 。 


ad CCD TD) Ti:=C-D 
D (@ BT, 7) Ty:=B*T, 
(3) (AT, Ts) Ty:=A+Ty 
(4) CCD T) 或 Ti:=C-D 
(5) CON T) Ts:=T,^N 
(6) (ET Ts.) Ts:=E/Ts 
nD Ch% n Tyi=Ty+T 
图 8.8 三 地 址 码 /四 元 式 图 8.9 静态 单 赋值 形式 
获得 SSA 形式 需要 两 个 步骤 : 


(1) 对 程序 的 “ 定 值 点 ”进行 重 命名 。 比 如 ,对 于 图 8. 9 左边 的 程序 ,将 x 的 两 个 定 值 点 
分 别 重 命名 为 zx; 和 xy 的 两 个 定 值 点 分 别 重 命名 为 yt 和 yo ,ww 的 两 个 定 值 点 分 别 重 命 
名 为 w! 和 es 。 对 于 没有 分 支 的 程序 ,通过 重 命名 足以 获得 SSA 形式 。 
(2) 插入 p 函数 。 对 于 有 分 支 的 情形 ,需要 通过 插入 所 谓 的 “p 函数 ”来 解决 同一 名 字 
的 多 个 定 值 点 的 合流 问题 。 例 如 ,图 8. 9 程序 中 条 件 语句 之 后 的 y 的 定 值 点 是 w 还 是 
yz WÈ? 如 图 8.9 右边 的 代码 所 示 ,在 条 件 语 句 之 后 插入 p 函数 pCy oy.) ,并 赋值 给 yso TE 
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条 件 语句 之 后 使 用 的 > Fé ys. GC ,y ) 的 含义 是 : 程序 若 执行 then 分 支 时 取 定 值 点 为 wm ， 
车 执行 else 分 支 时 取 定 值 点 为 y; 。9 函数 仅 作为 特殊 标志 供 编译 时 使 用 , 当 相应 的 分 析 和 
优化 工作 结束 后 ,在 寄存 器 分 配 和 代码 生成 过 程 中 将 根据 代码 原 有 的 语义 被 解除 。 如 何 解 
除 ,读者 可 在 学 完 相关 内 容 后 再 来 思考 这 个 问题 ,不 难 找 出 解决 方案 。 

在 现行 的 编译 程序 中 ,AST 是 较 常用 的 高 级 中 间 表 示 形 式 ,而 TAC 是 较 常 用 的 低级 中 
间 表 示 形 式 。 许 多 编译 程序 都 是 将 源 程序 首先 翻译 成 等 价 的 AST 形式 ,然后 再 从 AST 表 
示 得 到 对 应 的 TAC 形式 。 这 个 过 程 中 也 伴随 着 基于 AST 和 TAC 进行 的 代码 优化 工作 。 
SSA 是 很 受 重 视 的 专用 于 分 析 和 优化 的 中 间 表 示 形 式 , 但 有 关 SSA 更 多 的 内 容 超 出 本 书 范 
围 , 有 需要 的 读者 可 参考 相关 书籍 ,如 文献 L[9] 。 

在 8.3.2 节 和 8.3.3 节 里 ,将 以 语法 制导 的 方法 为 依托 ,以 常见 语言 成 分 的 翻译 为 例 介 
绍 中 间 代 码 生 成 的 一 些 常用 技术 ,涉及 两 类 重要 的 中 间 表 示 形 式 , 即 AST 和 TAC. 


8.3.2 生成 抽象 语法 树 


抽象 语法 树 (AST) 是 一 种 非常 接近 源 代 码 的 中 间 表 示 , 它 的 特点 是 : 中 不 含 我 们 不 关 
心 的 终结 符 ( 例 如 逗号 ) ,而 只 含 像 标识 符 、 常 量 之 类 的 终结 符 ; @ 不 具体 体现 语法 分 析 的 细 
节 步 又 。 例 如 ,对 于 A> AE |e 这 样 的 规则 ,按照 语法 分 析 的 细节 步骤 来 记录 的 话 应 该 是 一 
棵 二 又 树 , 但 是 在 AST 中 可 以 将 其 表示 成 同类 结 点 的 一 个 链表 ,这 样 更 便于 后 续 处 理 ， 
加 能 够 完整 体现 源 程序 的 语法 结构 ,使 后 续 过 程 可 以 反复 利用 。 合 理 定义 抽象 语法 树 的 结 
点 类 型 是 编译 器 设计 人 员 的 主要 责任 之 一 。 

先 看 下 列 翻译 模式 片段 , 它 可 以 将 简单 语句 和 表达 式 翻 译 至 一 种 AST: 


Sid:=E {S. ptr :=mknode('assign', mkleaf(id. entry), E. ptr)} 
Sif E then S, {S. ptr *=mknode(if_then', E. ptr, Sı. ptr)} 

Sif E then S, else S? {S. ptr *+=mknode('ïf_then_else', E. ptr. Sı. ptr, Sz. ptr) } 
S—>while E then S, {S. ptr +=mknode('while_do', E. ptr, Sı. ptr)} 

SS 一 SI Sz {S. ptr :=mknode('seq', Si. ptr, S2. ptr) } 

S~>break {S. ptr *=mknode('break’) } 

E> id {E. ptr :一 mkleaf (id. entry) } 

E> int {E. ptr :一 mkleaf (int. val) } 

E—>real {E. ptr :一 mkleaf (real. val) } 

E>E, +E, {E. ptr :=mknode('add', Ei. ptr. Ez. ptr) } 

E>E, * E, {E. ptr *=mknode('mul', Ei. ptr. Ez. ptr) } 

E>—E, {E. ptr += mknode('uminus', Ei. ptr) } 

E>(E,) {E. ptr *=E,. ptr} 

E> true {E. ptr *=mkleaf (‘true)} 

E> false {E. ptr :一 mkleaf (false)} 

E>E, AE: {E. ptr +=mknode('and', Ei. ptr, E2. ptr) } 

E>E, VE, {E. ptr *+=mknode('or', E,. ptr, Ez. ptr) } 
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E> >E, {E. ptr ?=mknode('not', Ei. ptr) } 

E>E [E:] {E. ptr :=mknode('array', Ei. ptr, Ez. ptr)} 

E>E {E. ptr :=mknode('pointer', E,. ptr) } 
其 中 ,mknode 为 构造 AST 内 部 结 点 的 语义 函数 , 它 的 第 一 个 参数 标识 该 结 点 相应 的 动作 
或 运算 ,其 余 参 数 代表 各 个 子 结 点 对 应 的 运算 数 或 运算 数 指针 ( 子 结 点 个 数 对 应 运算 的 元 
数 ); mkleaf 为 构造 AST 叶 结 点 的 语义 函数 , 叶 结 点 对 应 常量 或 变量 运算 数 ; id. entry 为 指 
向 当前 标识 符 对 应 于 符号 表 中 表 项 的 指针 ; int. val 和 real. val 均 为 词法 分 析 得 到 的 常量 
值 。 语义 函数 mknode 和 mkleaf 都 将 返回 相应 结 点 的 一 个 指针 。 文 法 符号 SEA 的 综合 
属性 S. ptr, E. ptr ALA, ptr 分 别 对 应 AST 中 某 个 结 点 的 指针 。 从 上 述 翻 译 模式 片段 中 不 
难看 出 各 个 结 点 所 对 应 动作 或 运算 的 含义 。 

该 翻译 模式 的 基础 文法 可 以 对 应 到 图 8. 6 中 简单 语句 和 表达 式 的 文法 定义 ,不 同 
的 是 定义 了 具体 的 算数 和 逻辑 运算 。 针 对 图 8.6 中 其 余 语 法 成 分 ,可 设计 如 下 翻译 模 
式 片 段 : 


P>D;S {P. ptr *+=mknode('toplevel', D. ptr, S. ptr) } 
D>V; F {D. ptr *=mknode(‘decl', V. v-list. F. f-list) } 
V>V,; TL {V. v-list *=link_list (Vi. v-list. L. v-list) } 
Ve {V. vlist :=make_empty_list ©} 

E=Lis id {L. wlist :=insert_list (Li. vlist, id. entry)} 
L=*id {L.vlist :=make_ list (id. entry) } 

F>F,; id (V) S {F. f-list :一 insert_list (F,. f-list, id. entry) } 
Foe {F. f-list *=make_empty_list ©} 

A>A,,E (A. e list :一 insert_list (A. e list, E. ptr) } 
Ae {A. e list !=make_empty_list © } 

S—>call id (A) {S. ptr :一 mknode(call'，mkleaf(id. entry). A. e list) } 


其 中 ,语义 函数 make_empty_list、make_list、insert_list 以 及 merge_list 分 别 为 创建 空 表 、 创 
建 单元 素 表 、 在 已 知 表 中 插 和 人 一 个 新 元 素 以 及 两 个 表 的 链接 。 


8.3.3 生成 三 地 址 码 


三 地 址 码 (TAC) 是 一 种 比较 接近 汇编 语言 的 表示 方式 。 

与 生成 AST 类 似 , 同 样 可 以 给 出 生成 TAC 的 翻译 模式 。 然 而 ,TAC 是 较 低级 的 中 间 
表示 ,因而 技术 层面 上 需要 考虑 更 加 复杂 和 细致 一 些 的 问题 。 

在 随后 的 例子 中 .将 用 到 下 列 类 型 的 TAC 语句 : 

。 赋值 语句 r :二 y op x (op 代表 二 元 算术 /逻辑 运算 )。 

。 赋值 语句 x :二 op y (op 代表 一 元 运算 )。 

， 复 写 语句 x :二 y Cy WERA x)。 

。 无 条 件 跳 转 语句 goto L (无 条 件 跳 转 至 标号 L)。 

。 条 件 跳 转 语句 if x rop y gotoL (rop 代表 关系 运算 ) 。 

+ 211 + 


标号 语句 工 : 定义 标号 工 ) 。 
过 程 调用 语句 序列 param zi …param zw call p,n, 其 中 包括 十 1 条 TAC 语句 。 
过 程 返回 语句 return, 
下 标 赋值 语句 z =y [让 和 zz Ci) :一 y( 前 者 表示 将 自 y 的 存储 位 置 起 第 i 个 存储 单 
元 的 值 赋 给 x, 后 者 表示 将 y 的 值 保存 到 zz 的 存储 位 置 起 第 ; 个 存储 单元 ) 。 
指针 赋值 语句 x t= * y Fle xe :三 y( 前 者 表示 将 把 y 的 值 作为 存储 位 置 所 指 存储 单 
元 的 内 容 赋 值 给 xz, 后 者 表示 将 y 的 取 值 保存 到 xz 的 值 作为 存储 位 置 所 指 的 存储 单 
元 中 )。 

注意 : 这 里 ,TAC 语句 中 的 变量 名 字 对 应 一 个 存储 位 置 。 实 际 上 ,在 TAC 层次 ,变量 
名 字 所 对 应 的 存储 位 置信 息 ( 相 对 于 基地 址 的 偏 移 量 ) 总 是 可 以 从 符号 表 中 得 到 。 换 句 话 
说 ,变量 的 取 值 即 为 其 名 字 对 应 的 存储 位 置 上 存储 单元 的 内 容 。 


8.3.3.1 赋值 语句 及 算术 表达 式 的 翻译 
以 下 是 一 个 S- 翻 译 模式 片段 ,可 以 产生 相应 于 赋值 语句 和 算术 表达 式 的 TAC 语句 序列 : 


S—>id:=A_{S. code :一 A.codellgen(id. place ':=' A. place)} 

A>id {A. place :=id. place; A. code :=""} 

Aint {A. place :=newtemp; A. code *=gen (A. place =' int, val) } 
A~real {A. place :一 newtemp; A. code :一 gen (A. place ':=' real. val)} 


AA, +A, {A. place *=newtemp; 
A. code += Aj. code || A;. code || 
gen (A. place ':=' A. place '+' A,. place)} 
AA, * A, {A. place :=newtemp; 
A. code +=A;. code || Az. code || 
gen (A. place ':=' A. place '*' Az. place)} 
A>—A, {A. place *=newtemp; 
A, code *= Aj. code || 
gen (A, place ':=' ' 
A>(A,) {A. place :=Al. place; A. code :=Al. code} 
其 中 ,id. place 表示 相应 的 名 字 对 应 的 存储 位 置 ; 综合 属性 A. place 表示 存放 A 的 值 的 存 
储 位 置 ; 综合 属性 A. code 表示 对 A 进行 求 值 的 TAC 语句 序列 ; 综合 属性 S. code 表示 对 
应 于 S H TAC 语句 序列 。 
语义 函数 gen 的 结果 是 生成 一 条 TAC 语句 ; 语义 函数 newtemp 的 作用 是 在 符号 表 中 
新 建 一 个 从 未 使 用 过 的 名 字 , 并 返回 该 名 字 的 存储 位 置 ; 上 | 是 TAC 语句 序列 之 间 的 链接 


8.3.3.2 说 明 语句 的 翻译 


uminus' Ai. place) } 


源 程 序 中 标识 符 的 许多 信息 在 TAC 中 不 复 存在 ,许多 重要 信息 如 类 型 、 偏 移 地 址 等 需 
要 保存 在 符号 表 中 。 在 8. 2. 2. 2 节 的 示例 中 ,为 实现 类 型 检查 ,设计 了 处 理 变量 声明 的 翻译 
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模式 片段 ,可 以 将 变量 标识 符 的 类 型 保存 至 符号 表 。 下 面 对 这 个 翻译 模式 片段 进行 扩充 ,以 
使 变量 标识 符 的 类 型 以 及 偏 移 地 址 可 以 同时 保存 至 符号 表 : 
V>V.; T {L. type *=T. type; L. offset +=V,. width; L. width += T. width} L 
{V. type ?=make_product_3 (Vi. type. T. type, L. num); 
V. width :=V,. width+L. num T. width} 


V>e {V. type *=<>; V. width :=0} 

T— boolean {T. type :=bool; T. width :=1)} 

T—>integer {T. type :一 int; T. width :=4} 

T—>real {T. type :一 real; T. width :一 8) 
T—array[num]of T, {T. type :一 array(1..num. lexval, T,. type); 


T. width += num. lexval X T;. width} 
TT, {T. type *=pointer(T). type); T. width :=4} 
工 一 {Li.type :=L. type; Li. offset :=L. offset; Lı. width :=L. width;} Li, id 
{enter (id. name. L. type. L. offset+Lı. num L. width); L. num *=L;, num+1} 

工 一 id {enter (id. name, L. type, L. offset); L. num *=1} 

其 中 ,文法 符号 的 属性 值 具有 如 下 含义 : num, lexval 为 词法 分 析 返 回 的 单词 属性 值 ( 单 
词 自身 的 值 ),id. name Wid 的 词法 名 字 ; 综合 属性 T. type 表示 所 声明 的 类 型 ; 综合 属性 
T. width 表示 所 声明 类 型 所 占 的 字 节 数 ; 继承 属性 上 L. type 表示 变量 列表 被 声明 的 类 型 ; 继 
KRYE L. width 表示 变量 列表 被 声明 类 型 所 占 的 字 节 数 ; 继承 属性 L. offset 表示 变量 列表 
中 第 一 个 变量 相对 于 过 程 数 据 区 基 址 的 偏 移 量 ; 综合 属性 L. num 表示 变量 列表 中 变量 的 
个 数 ; 综合 属性 V. width 表示 声明 列表 中 全 部 变量 所 占 的 字 节 数 。 

语义 函数 enter(id. name,t,o) 的 含义 为 : 将 符号 表 中 id. name 所 对 应 表 项 的 type 域 置 
为 1,offset WEEN o. 

另外 ,在 这 个 翻译 模式 中 ,假设 了 各 数据 类 型 的 宽度 ( 字 节 数 ) : 布尔 型 和 字符 型 为 1, 整 
型 为 4, 实 型 为 8, 指针 为 4。 

不 难看 出 ,这 是 一 个 -翻译 模式 。 


8.3.3.3 数组 说 明和 数组 元 素 引 用 的 翻译 


在 8.3.3.2 的 翻译 模式 中 ,已 经 包含 了 有 关 ( 一 维 ) 数 组 说 明 的 处 理 。 下 面 的 翻译 模式 
片段 进一步 考虑 了 数组 元 素 的 引用 : 
S>E,[E,]?=E,; {S.code :=E,.codel|lE,. codell 
gen (Ei.place [' E;.place 小 ':=' E;.place)} 
EE, [Ez] {E. place *=newtemp; 
E. code :=E>. code || 
gen (E. place ':=' E,.place [' E,. place ‘J')} 
在 处 理 数 组 时 ,通常 会 将 数组 的 有 关 信 息 记 录 在 一 些 单元 中 , 称 为 内 情 向 量 。 对 于 静态 
数组 ,内 情 向 量 可 放 在 符号 表 中 ; 对 于 动态 可 变数 组 ,将 在 运行 时 建立 相应 的 内 情 向 量 。 
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例如 ,对 于 ) 维 静态 数组 说 明 A Ch st ,za :xz ott on stn Je A AG BB HE ES RP ET AN 
下 形式 的 内 情 向 量 : 

© hsumslzsuzs dn tins Ue Mu; ASi<n) AS i 维 的 下 界 和 上 界 。 

。 type: 数组 元 素 的 类 型 。 

。a: 数组 首 元 素 的 地 址 。 

on: 数组 维 数 。 

© C: 计算 元 素 偏 移 地 址 时 不 变 的 部 分 , 见 随后 的 解释 。 

若 数组 布局 采用 行 优先 的 连续 布局 ,数组 首 元 素 的 地 址 为 a, 则 数组 元 素 A [i sinters 
in] 的 地 址 D 可 以 如 下 计算 : 

D=a+ (i, —l,) (uz—lı) (uO—L) (wu Ly) + Gg lz) Cg 13) (u, — l) 
一 

重新 整理 后 可 得 

D=a—C+V 
其 中 


C= Cy Cte = lz) Cus 15 Us) Cua Lg) H+ lni) Cun = ln) Hla 

V=C (Cig Cg Ly) Hig) Cats —la) Hig) G0 LQ) H Hin) Cy Lh) Fin 

这 里 ,C 为 常量 , 即 前 面 内 情 向 量 的 一 部 分 ,在 生成 数组 元 素 地 址 时 不 用 重复 计算 。 
在 此 基础 上 ,可 以 设计 处 理 多 维 数组 说 明和 数组 元 素 引 用 的 翻译 模式 。 


8.3.3.4 布尔 表达 式 的 翻译 


对 于 布尔 表达 式 的 翻译 ,一 种 方法 是 可 以 直接 对 布尔 表达 式 进 行 求 值 。 比 如 ,可 以 用 数 
值 1 表示 true, 用 数值 0 表示 false, 设 计 如 下 的 S- 翻 译 模式 片段 : 
E>E, VE: {E. place = newtemp; 
E. code += E; . code|| E}. code|| 


gen(E. place E,.place or Ez. place)} 
E>E, AE, {E. place :一 newtemp; 
E. code :一 已. code || E}. code || 
gen(E. place ':=' E,.place 'and' E}. place)} 
E> sE; {E. place += newtemp; 
E. code += E;. code|| gen(E. place ':=' mot' E. place)} 
E>(E,) {E. place += E. place; E. code *=E,. code} 
E>idirop id {E. place += newtemp; 
E. code :=gen('if id. place rop. op id;. place ‘goto' nextstat+3) || 
gen(E. place ':=' 0) || gen(goto' nextstat+2) || 
gen(E. place ':=' '19} 
E—>true {E. place :一 newtemp; E. code :一 gen (E. place ':=' '1')} 
E> false {E. place :=newtemp; E. code :一 gen (E. place ':=' 0} 
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其 中 ,综合 属性 E. place 表示 存放 的 值 的 存储 位 置 ; 综合 属性 E. code 表示 对 EE 进行 求 值 
的 TAC 语句 序列 ,语义 函数 gen, newtemp 以 及 运算 || 的 含义 同 8. 3. 3. 1 节 。 语义 函数 
nextstat 返回 输出 代码 序列 中 下 一 条 TAC 语句 的 下 标 。 idi. place 和 id;. place 表示 相应 的 
名 字 对 应 的 存储 位 置 ; rop. op 表示 相应 关系 运算 符号 。 
翻译 布尔 表达 式 的 另 一 种 方法 是 通过 控制 流体 现 布 尔 表达 式 的 语义 , 即 通过 转移 到 程 
序 中 的 某 个 位 置 来 表示 布尔 表达 式 的 求 值 结果 。 这 种 方法 的 一 个 优点 是 可 以 方便 实现 控制 
流 语句 中 布尔 表达 式 的 翻译 ,通常 还 可 以 得 到 短路 代码 而 避免 不 必要 的 求 值 。 例 如 ,在 已 知 
E, 为 真 时 ,不 必 再 对 EV Es, 中 的 E, 进行 求 值 ; 同样 ,在 已 知 Ei 为 假 时 ,不 必 再 对 E AE, 
中 的 E 进行 求 值 。 考 虑 下 列 翻译 模式 片段 : 
E>({E;. true :=E. true; E'. false :=newlabel} E, V 
{E,. true :=E. true; E>. false += E. false} E; 
{E. code ?=E). code|| gen (E. false ':) || E2. code} 
E>{E;. false :=E. false; E}. true *=newlabel} E, A 
{E2. false :=E. false; Ez. true :=E. true} E: 
{E. code :=E. code || gen (E). true ':) || Ez. code} 
E> —({E,. true :=E. false; E,. false :=E. true} E, {E. code :=E'. code} 
E>({E. true :一 下. true; 已. false :=E. false} E,) {E. code *=E,. code} 


E- id, rop id, {E. code :一 gen Cif" idı. place rop. op idz. place 'goto' E. true) || 
gen (goto' E. false) } 

Etrue {E. code :一 gen (goto' E. true) } 

E-false {E. code :一 gen (goto' E. false) } 


其 中 ,综合 属性 E. code .语义 函数 gen 以 及 运算 1 的 含义 同 前 。 调 用 语义 函数 newlabel 将 
返回 一 个 新 的 语句 标号 。 继 承 属性 E. true 和 E. false 分 别 代 表 EE 为 真 和 假 时 控制 要 转移 
到 的 程序 位 置 , 即 标号 。 

这 是 一 个 雹 -翻译 模式 。 若 规定 运算 人 优先 于 V , 且 都 为 左 结合 , 则 可 以 基于 LR 分 析 构 
造 一 个 翻译 程序 。 若 以 布尔 表达 式 EE==a<bV cd 人 e 二 /为 输入 ,那么 可 能 的 翻译 结果 
形 如 

if a<b goto E. true 

goto labell 

labell: 

if c<d goto label2 

goto E. false 

label2; 

if e<f goto E. true 

goto E. false 
其 中 ,E. true fil E. false 会 在 表达 式 巨 的 上 下 文中 确定 ,参见 8. 3. 3.5 节 。 


8.3.3.5 控制 语句 的 翻译 


以 下 是 一 个 二 -翻译 模式 片段 ,可 以 产生 控制 语句 (为 简洁 , 先 不 考虑 break 语句 ) 的 
上 


TAC 语句 序列 : 


Si. next :=S. next} S, else {S,. next :一 S. next} S, 


PD; {S. next += newlabel} S {gen(S. next ':')} 
S—>if {E. true :一 newlabel; E. false :一 S. next} E then 

{S,. next :一 S. next} S, {S. code :=E. codel| gen(E. true ';') || S,. code} 
S—>if {E. true :一 newlabel; E. false += newlabel} E then 

{ 

{ 


S. code :=E. code || gen (E. true ':') || S,. code || 
gen('goto' S. next) || gen(E. false ':) || S}. code} 
S—>while {E. true :一 newlabel; E. false :一 S. next} E do 
{Si1. next :一 newlabel} S, 
{S. code += gen (S. next ':) || E. code|| gen(E. true ':") || 
S,. code || gen('goto' S;. next) } 
S> {Si. next :一 newlabel}) Sı; {S;. next :一 S. next} Sz 
{S. code := Si. code || gen(S;. next ':) || S2. code} 
其 中 ,综合 属性 E. code 和 S. code, 继 承 属 性 E. true 和 EE. false, 语 义 函数 gen, newlabel 以 
及 运算 目的 含义 同 前 。 继 承 属性 S. next 代表 退出 S 时 控制 要 转移 到 的 语句 标号 。 
这 一 翻译 模式 片段 的 设计 思路 可 以 参考 图 8. 10。 


to E.true to E.true to E.true 
十 一 一 一 十 -一 Sinext 二 一 一 
Ecode |toEfalse Ecode | to E.false Ecode | to Efalse Sicode 
4 EF = Si.next 
E.true Etrue | Si.code Etrue 
Si.code Si.code Sy.code 
goto S.next 
Si „next 
E.false E.false Sy.code goto Sinext 
S.next H E.false 
(a) if-then (b) if-then-else (c) while-do (d) seq.comp. 


图 8. 10 控制 语句 的 翻译 


下 列 翻译 模式 片段 增加 了 对 break 语句 的 处 理 : 
P>D; {S. next *=newlabel; S. break *=newlabel} S{gen(S. next ';')} 
S>if {E. true :一 newlabel; E. false :=S. next} E then 

{Si. next :一 S. next; Sı. break :一 S. break} S, 

{S. code :=E. code || gen(E. true ':') || S,. code} 
S>if {E. true :一 newlabel; E. false *=newlabel} E then 

{Si1. next :一 S. next; Sı. break :一 S. break} S, else 

{S,. next :一 S. next; Sz. break :一 S. break} S, 

{S. code :=E. code || gen(E. true ':") || S,. code || 

gen(‘goto' S. next) || gen(E. false ':") || S2. code} 

S—>while {E. true :一 newlabel; E. false :=S. next} E do 

{Si. next :一 newlabel; S,. break :一 S. next} S, 


{S. code :=gen(Si. next ':) || E. code|| gen(E. true ':” || 
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Sı. code || gen('goto' Sı. next) } 


S> {Si. next :一 newlabel; Si. break :一 S. break} S,; 
{S;. next :一 S. next; Sz. break :一 S. break} S, 
{S. code :=S1. code || gen(S,. next ';') || S}. code} 
S~break; {S. code :一 gen(goto' S. break) } 


注意 : 对 于 不 被 while 包围 的 语句 S,S. break 可 取 任 意 标号 (因为 已 经 过 静态 语义 检 
查 , 故 S 不 可 能 是 break 语句 )。 


8.3.3.6 拉链 与 代码 回填 

前 面 两 小 节 里 ,设计 了 将 布尔 表达 式 和 控制 语句 翻译 为 TAC 语句 序列 的 L- 翻 译 模 式 
片段 (通过 控制 流体 现 布尔 表达 式 的 语义 )。 本 小 节 介绍 一 种 可 处 理 同样 问题 的 S- 翻 译 模 
这 一 翻译 模式 用 到 下 列 属性 值 和 语义 函数 : 


综合 属性 E. truelist( 真 链 ) : 表示 一 系列 跳 转 语句 的 地 址 ,这 些 跳 转 语句 的 目标 语 
名 标号 是 体现 布尔 表达 式 E 为 “ 真 ”的 标号 。 

综合 属性 E. falselist( 假 链 ) : 表示 一 系列 跳 转 语句 的 地 址 ,这 些 跳 转 语句 的 目标 语 
名 标号 是 体现 布尔 表达 式 E 为“ 假 ”的 标号 。 

综合 属性 S. nextlist(next 链 ): 链表 中 的 元 素 表 示 一 系列 跳 转 语句 的 地 址 ,这 些 跳 
转 语 句 的 目标 语句 标号 是 在 执行 序列 中 紧 跟 在 S 之 后 的 下 条 TAC 语句 的 标号 。 综 
合 属性 N. nextlist 是 仅 含 一 个 语句 地 址 的 链表 ,对 应 于 处 理 到 N 时 的 跳 转 语句 。 
综合 属性 S. breaklist(break 链 ) : 链表 中 的 元 素 表 示 一 系列 跳 转 语句 的 地 址 ,这 些 
跳 转 语句 的 目标 语句 标号 是 跳出 直接 包围 S 的 while 语句 后 的 下 条 TAC 语句 的 
标号 。 

综合 属性 M. gotostm 中 记录 处 理 到 M 时 下 一 条 待 生成 语句 的 标号 。 

语义 函数 makelist(i) : 创建 只 有 一 个 结 点 i 的 表 , 对 应 于 一 条 跳 转 语句 的 地 址 。 
语义 函数 merge( pı + pz): 链接 两 个 链表 pi 和 pz ,返回 结果 链表 。 

语义 函数 backpatch( p.i): 将 链表 户 中 每 个 元 素 所 指向 的 跳 转 语句 的 标号 置 为 ;。 
语义 函数 nextstm: 返回 下 一 条 TAC 语句 的 地 址 。 

语义 函数 emit(…): 输出 一 条 TAC 语句 ,并 使 nextstm 加 1 。 


先 来 看 处 理 布尔 表达 式 的 S- 翻 译 模式 片段 : 
E>E, VME, {backpatch(E;. falselist，M. gotostm) ; 


E. truelist *=merge(E). truelist, Ez. truelist) ; 
E. falselist += E,. falselist} 


E>E, AME, {backpatch(E'. truelist. M. gotostm) ; 


E. falselist += merge(E). falselist, Ez. falselist) ; 
E. truelist *=E,. truelist} 


E> — E, {E. truelist *=E). falselist; E. falselist *=E,. truelist} 
E>(E,) {E. truelist *=E). truelist; E. falselist +=E,. falselist} 
Eid, rop idz {E. truelist :一 makelist (nextstm) ; 


E. falselist :一 makelist (nextstm+1); 
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emit (if idı. place rop. op idz. place goto _'); 


emit (goto _')} 


E> true {E. truelist :一 makelist (nextstm); emit (‘goto _')} 
E> false {E. falselist :一 makelist (nextstm); emit (‘goto _')} 
M>e {M. gotostm *=nextstm} 


这 个 翻译 模式 使 用 了 所 谓 的 代码 回填 技术 : 当 处 理 到 某 一 步 ,生成 的 转移 语句 不 能 确 
定 目 标语 名 标号 时 , 先 将 目标 语句 标号 的 位 置 用 ' 表示 ,并 将 该 转移 语句 的 地 址 加 入 到 某 个 
链表 ( 真 链 、 假 链 、next 链 ) 中 ; 当 这 个 目标 语句 标号 可 以 确定 之 时 ,再 将 其 回填 至 '_' 处 。 例 
如 ,对 于 产生 式 E>E, VM E, ,在 产生 E, 部 分 的 代码 时 ,Ei 求 值 为 true 或 false 时 转移 语 
句 的 目标 语句 标号 不 能 确定 ,所 以 将 转移 语句 的 地 址 加 入 到 Ey. truelist 或 Ei. falselist 之 
中 ; 在 处 理 到 M 时 ,当前 得 到 的 综合 属性 值 M. gotostm 正 是 Ei 求 值 为 false 时 应 该 转移 到 
的 目标 语句 标号 ,因此 执行 语义 动作 backpatch(E). falselist, M. gotostm) 将 M. gotostm 回 
填 至 E. falselist 中 的 所 有 转移 语句 ; 另外 ,需要 将 Ey. truelist 中 的 所 有 转移 语句 地 址 合并 
到 E. truelist ŽP PRK E RH true 时 应 该 转移 到 的 目标 语句 标号 确定 后 ,再 回填 给 
这 些 转移 语句 。 

看 一 个 简单 的 例子 。 若 以 布尔 表达 式 E=a<bV cc 二 dAe 二 /为 输入 ,那么 基于 这 个 翻 
译 模式 的 翻译 过 程 和 翻译 结果 如 图 8. 11 所 示 ( 规 定 运算 人 优先 于 V ) 。 


E.truelist={0, 4} (0) ifa<b goto _ 
E falselist={3,5} (1) goto _(2) 
(2) if e<d goto _(4) 
bi \ (3) goto _ 
or M.gotostm={2} (4) ife<f goto _ 
Etruelist={0} | Etruelist={4} (5) goto _ 
SS 1} E.falselist={3,5} 
i < b and 
E.truelist={2} M.gotostm={4} E.truelist={4} 
PINO E.falselist={5} 
e 


é < d e < f 


图 8.11 拉链 与 代码 回填 


在 归 约 a<b 时 生成 语句 (0) 和 (1) J <d 时 生成 语句 (2) 和 (3) AA e< S 时 生成 
语句 (4) 和 (5) ,但 都 不 能 确定 目标 语句 标号 。 在 按照 产生 式 EE, AM Es 进行 归 约 时 ,将 
当前 M. gotostm 中 记录 的 语句 标号 (4) 回 填 至 当前 EB). truelist 中 记录 的 所 有 转移 语句 , 结 
果 使 得 语句 (2) 中 的 目标 语句 标号 被 替换 为 (4)。 同 理 , 在 按照 产生 式 EE, V ME, 进行 归 
约 时 ,使 得 语句 (1) 中 的 目标 语句 标号 被 替换 为 (2)。 

在 处 理 完整 个 表达 式 玉 之 后 ,语句 (0)、(3)、(4) 和 (5) 的 目标 语句 标号 仍 未 确定 ,但 这 
些 语句 已 被 记录 在 EE 的 真 链 和 假 链 之 中 : E. truelist=(0.4}.E. falselist= {3,5}. 

再 来 看 处 理 控 制 语句 (为 简洁 , 先 不 考虑 break 语句 ) 的 S- 翻 译 模式 片段 : 


P>D; SM 
Sif E then MS, 


S—>if E then M, S, N else M, S; 
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{backpatch(S. nextlist. M. gotostm) } 
{backpatch(E. truelist, M. gotostm) ; 
S. nextlist += merge( E. falselist, Sı. nextlist) } 


{backpatch(E. truelist. Mi. gotostm) ; 


S—>while M, E then M, S, 


再 增加 对 break 语句 的 处 理 : 
P>D; SM 


S>if E then MS, 


Sif E then M, S, N else M; S; 


S—>while M, E then M, S, 


S>Sı; MS, 


Ne 


backpatch(E. falselist, Mz. gotostm) ; 
S. nextlist += merge( S, . nextlist, merge( N. nextlist, 
S,. nextlist)) } 
{backpatch(S,. nextlist, Mi. gotostm) ; 
backpatch(E. truelist. Mz. gotostm) ; 
S. nextlist :=E. falselist; 
emit('goto', Mi. gotostm) } 
{backpatch(S,. nextlist. M. gotostm) ; 
S. nextlist := S,. nextlist} 
{M. gotostm *=nextstm} 


{N. nextlist !=makelist(nextstm) ; emit('goto _')} 


{backpatch(S. nextlist. M. gotostm) ; 
backpatch(S, breaklist, M. gotostm) } 
{backpatch(E. truelist, M. gotostm) ; 

S. nextlist *=merge(E. falselist, S,. nextlist) ; 
S. breaklist += S,. breaklist} 
{backpatch(E. truelist, Mi. gotostm); 
backpatch(E. falselist, M,. gotostm); 

S. nextlist += merge( Si. nextlist, merge( N. nextlist, 
S,. nextlist) ; 

S. breaklist := merge(S,. breaklist, S,. breaklist) } 
{backpatch(S,. nextlist, Mi. gotostm) ; 
backpatch(E. truelist, M2. gotostm) ; 

S. nextlist += merge( E. falselist. Sı. breaklist) ; 
S. breaklist :一 ""; 

emit('goto', Mı. gotostm) } 
{backpatch(Si. nextlist, M. gotostm) ; 

S. nextlist := S,. nextlist; 

S. breaklist := merge(Si. breaklist, S}. breaklist) } 


{S. breaklist :=makelist (nextstm); 


on 


S. nextlist *="";emit (goto _')} 
{M. gotostm :一 nextstm} 


{N. nextlist :一 makelist(nextstm) ; emit('goto _')} 


最 后 ,补充 关于 赋值 语句 及 算术 表达 式 的 翻译 (类 似 于 8. 3. 3. 1 节 ) : 


{A. place :=newtemp; emit (A. place ':= 


A. place); S. nextlist :="";} 


int. val) } 


S>id:=A _ {emit (id. place ':=' 
A—>id {A. place :一 id. place} 
A=int 

A—real 


{A. place :=newtemp; emit (A. place 


real. val) } 
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A 一 Ai 十 A，{A. place :=newtemp; emit (A. place ':=' Ai.place '+' Ap. place)} 
AA, * A {A. place :=newtemp; emit (A. place ':=' A,.place '*' Az. place) } 


A>—A, {A. place :一 newtemp; emit (A. place ‘uminus' Aj, place) } 


A>(A,) {A. place :一 Ali. place} 
8.3.3.7 过 程 调用 的 翻译 


本 节 讨 论 一 个 简单 过 程 调用 的 翻译 。 例 如 ,对 于 过 程 调用 
call p(a+b,a * b) 


一 种 可 能 的 翻译 结果 如 下 : 
"计算 ato 结果 置 于 上 中 "的 代码 //t*=atb 
"计算 a * 5 结果 置 于 z 中 "的 代码 //z*=a*b 
param £ // 第 一 个 实 参 地 址 
param z // 第 二 个 实 参 地 址 
call p, 2 // 过 程 调 用 语句 
以 下 是 完成 此 工作 的 一 个 S- 翻 译 模式 : 
S—>call id (A) 


{S. code :=A. code; 
for A. arglist 中 的 每 一 项 d do 
S. code :一 S. code|| gen('param' d); 
S. code :一 S. code|| gen (‘call' id. place , A. n)} 
A>A,, E 
{A.n*=A,.n+1; A. arglist *=append(A). arglist, makelist(E. place) ) ; 
A. code :一 Al.code|| E. code} 
Ave 
{A.n :=0; A. arglist +=" "; A. code :=" "} 
其 中 ,属性 A. code、S. code 和 id. place, WX PAM gen, 以 及 运算 上 | 的 含义 同 前 。 属 性 Asn id 
录 参 数 个 数 ; 属性 A. arglist 代表 实 参 地 址 的 列表 ; 语义 函数 makelist 表示 创建 一 个 实 参 地 
址 的 结 点 ; 语义 函数 append 表示 在 已 有 实 参 地 址 列表 中 添加 一 个 结 点 。 


8.4 多 遍 的 方法 


本 童 前 面 几 节 以 语法 制导 的 方法 为 主线 ,对 静态 语义 分 析 和 中 间 代 码 生成 的 常见 技术 
环节 进行 了 介绍 。 语 法 制导 的 方法 依赖 于 语法 分 析 ,一般 认为 适合 于 构造 单 遍 的 过 程 。 然 
而 ,在 实际 的 编译 器 中 ,静态 语义 分 析 和 中 间 代码 生成 的 实现 通常 是 采用 多 遍 的 方法 。 本 节 
首先 对 多 遍 的 方法 进行 补充 说 明 , 然 后 概要 介绍 被 广泛 采用 的 实现 技术 一 一 Visitor 设计 
模式 。 

如 前 所 述 ,AST 是 一 种 非常 接近 源 代码 的 中 间 表 示 .能 够 完整 体现 源 程序 的 语法 结构 ， 
同时 也 没有 损失 源 程序 的 任何 语义 信息 。 因 此 ,在 多 遍 的 编译 器 中 ,静态 语义 分 析 和 中 间 代 
码 生 成 的 相关 处 理 常常 通过 多 次 遍历 AST 来 完成 。 甚 至 符号 表 的 创建 也 可 以 放 在 生成 
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AST 之后。 例如 ,可 以 第 一 次 遍历 时 创建 符号 表 , 第 二 次 遍历 时 进行 静态 语义 分 析 ,而 第 三 
次 遍历 时 生成 TAC。 

为 了 方便 实现 ,往往 需要 更 多 次 地 遍历 AST。 实 际 上 ,8.2 节 和 8.3 节 中 介绍 的 每 个 翻 
译 模式 片段 所 描述 的 工作 ,都 可 以 通过 单独 遍历 一 次 AST 来 实现 。 自 然 , 翻 译 模式 片段 所 
定义 的 语义 计算 过 程 ,实际 上 可 用 作 遍 历 过 程 的 处 理 算法 。 因 此 ,本 章 以 语法 制导 的 方法 为 
主线 ,对 于 理解 静态 语义 分 析 和 中 间 代 码 生 成 的 技术 环节 具有 普遍 的 意义 。 

就 多 遍 方法 的 实现 而 言 , 每 一 遍 扫 描 都 要 针对 AST 的 所 有 结 点 进行 同类 的 处 理 ,处 理 
到 不 同 结 点 时 有 不 同 的 行为 。 如 果 是 采用 面向 对 象 技术 来 设计 编译 器 , 则 通过 Visitor 设计 
模式 可 以 很 方便 地 实现 这 一 需求 。 

设计 模式 中 是 人 们 为 解决 同类 设计 问题 总 结 出 来 的 行 之 有 效 的 软件 设计 定式 。 合 理 使 
用 设计 模式 ,可 以 使 软件 更 加 容易 理解 和 维护 ,节省 大 量 开发 时 间 和 工作 量 。 下 面 简 要 介绍 
Visitor 模式 的 设计 思想 。 

设 每 个 AST 结 点 的 种 类 都 对 应 各 自 的 一 个 class, 且 都 是 抽象 类 Tree 的 子 类 ,如 
图 8. 12 所 示 。 当 然 ,其 中 一 些 结 点 的 类 也 可 能 是 其 他 抽象 类 的 子 类 ,但 本 节 所 讨论 的 内 容 
与 这 些 中 间 层 次 的 抽象 类 关系 不 大 ,所 以 假设 类 层次 结构 只 有 如 图 8. 12 所 示 的 两 层 ,各 种 
AST 结 点 的 class 分 别 表示 为 A ,B,C,…。 


abstract class Tree 


classA class B class C oo 


图 8.12 AST 结 点 类 都 是 抽象 类 Tree 的 子 类 


假设 需要 对 AST 遍历 多 次 ,分 别 完成 “建立 符号 表 ”“ 类 型 检查 ”“TAC 生成 ”以 及 其 
他 工作 。 首 先 ,在 对 AST 进行 第 一 次 遍历 时 建立 符号 表 , 那 么 符合 面向 对 象 思想 的 处 理 方 
法 可 以 是 在 类 Tree 中 增加 一 个 叫 buildSym 的 abstract 方法 ,所 有 的 class A,B,C,… 都 重 
写 这 个 方法 ,针对 自己 结 点 类 别 进行 建立 符号 表 的 操作 。 在 遍历 AST 结 点 的 时 候 , 对 每 个 
结 点 调用 buildSym 方法 完成 建立 符号 表 的 操作 。 这 是 一 个 相当 费时 且 容 易 出 错 的 过 程 ,但 
是 还 可 以 忍受 。 那 么 , 接 下 来 ,比方 说 又 需要 对 AST 进行 另 一 次 遍历 ,进行 静态 语义 检查 ， 
按照 这 种 处 理 方法 ,Tree 中 须 再 增加 一 个 称 为 typeCheck 的 方法 ,每 个 AST 结 点 重 写 这 个 
方法 ,于 是 又 要 对 class A,B,C,… 进 行 修改 。 接 下 来 ,还 需要 对 AST 结 点 进行 遍历 ,完成 
如 TAC 生成 (增加 称 为 tacGen 的 方法 ) 等 其 他 工作 …… 这 样 ,就 会 不 停 地 修改 一 个 抽象 类 ， 
这 的 确 不 是 一 种 良好 的 编程 习惯 。 

幸运 的 是 , Visitor 模式 可 以 有 效 地 解决 上 述 设计 问题 。 这 种 方法 将 每 一 次 对 AST id 
历 的 工作 收集 到 一 个 单独 的 class, 而 不 是 将 这 些 工作 分 散 至 不 同 的 结 点 class。 例 如 ,把 建 
立 符 号 表 的 功能 收集 到 单个 类 BuildSym, 针 对 每 个 结 点 类 A,B,C,…', 建 立 符号 表 的 方法 
分 别 为 visitA,visitB,visitC,… ,如 图 8. 13 所 示 。 

Visitor 模式 提供 一 种 所 谓 双 重 分 派 (double dispatch) 的 技术 ,可 以 简洁 地 支持 这 种 将 
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每 一 次 遍历 工作 收集 到 一 个 单独 class 的 解决 方案 ,方法 如 下 : 
(1) 针对 每 个 结 点 类 A,B,C,…, Visitor 类 都 对 应 有 抽象 方法 visitA, visitB, visitC, ++, 40 
图 8.14 所 示 。 


abstract class Visitor 


public void visitA (A it) { 


| class Buildsym D visit (it): 
} 
public void visitA (A it) { public void visitB (B it) { 
$ visit (it): 
} } 
public void visitB (B it) { public void visitC (C it) { 
5 visit (it): 


Fu } 
public void visitc (C it) { : 

: public void visitC (Tree it) { 
} /*assert false */ 


} 


图 8.13 建立 符号 表 的 类 BuildSym 图 8.14 抽象 类 Visitor 


(2) 每 一 次 遍历 工作 对 应 的 class 都 继承 这 一 抽象 类 Visitor, WA 8. 15 所 示 。 这 些 功 
能 类 将 对 方法 visitA, visitB, visitC,… 进 行 重 载 。 如 图 8. 13 所 示 , 在 类 BuildSym 中 的 
visitA ,visitB,visitC,… 将 具体 定义 针对 各 个 结 点 类 (A,B,C,…) 实 现 建立 符号 表 的 功能 。 

(3) 为 抽象 类 Tree 增加 一 个 接受 Visitor 对 象 的 方法 void accept (Visitor v), 如 
图 8. 16 所 示 。 


abstract class Visitor abstract class Tree 
A 


一 


class BuildSym 


public void accept(Visitor v) { 
v.visit (this): 


} 


class TypeChecker 


图 8.15 各 次 遍历 工作 对 应 的 类 都 继承 Visitor 类 图 8.16 抽象 类 Tree 中 含 一 个 接受 Visitor 
对 象 的 方法 


(4) 结 点 类 A,B,C,… 都 重 载 方法 void accept(Visitor v) ,但 方法 体 十 分 相像 ,都 只 有 
一 条 语句 ,对 于 类 A 是 v. visitA (this), 对 于 类 B Æ v. visitB(this) ,而 对 于 类 C 则 是 
v, visitC(this) ,如 图 8. 17 所 示 。 

这 种 设计 的 好 处 是 , 当 需 要 新 增加 一 遍 扫 描 工 作 时 , 仅 需 增 加 一 个 新 的 类 ,通过 继承 
Visitor 类 和 重 载 其 中 的 方法 将 这 一 遍 扫 描 的 工作 收集 到 这 个 类 中 ,而 不 影响 代码 的 其 他 部 
分 。 例 如 ,如 果 需 要 对 AST 进行 另外 两 次 遍历 .分别 进行 静态 语义 检查 和 TAC 生成 , 则 只 
需要 增加 新 的 类 TypeChecker 和 TACGenerator, 并 分 别 将 语义 检查 和 TAC 生成 的 全 部 功 
能 封装 在 其 中 ,如 图 8. 15 和 图 8. 18 所 示 。 

不 难 发 现 , 本 节 所 介绍 的 Visitor 设计 模式 适合 应 用 于 被 访问 的 结 点 类 别 数目 基本 固定 
或 是 变化 不 太 大 的 情形 。 
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class A 


public void accept (Visitor v) { 
v.visit (this): 
} 


class B ) 人 class C 
public void accept (Visitor v) { public void accept (Visitor v) { 
v.visit (this): v.visit (this): 


} } 


Š 


图 8.17 每 个 结 点 类 都 重 载 接 受 Visitor 对 象 的 方法 


( class TypeChecker À [ class TACGenerator | 


public void visitA (A it) { public void visitA (A it) { 
} } 
public void visitB (B it) { public void visitB (B it) { 
} } 
public void visitc (C it) { public void visitC (C it) { 


yt } 


图 8.18 完成 静态 语义 检查 的 类 TypeChecker 和 实现 TAC 生成 的 类 TACGenerator 


此 外 ,还 可 以 简化 Visitor 类 中 抽象 方法 接口 的 定义 ,有 兴趣 的 读者 可 参考 [6] 和 [4] 中 
介绍 的 Visitor 类 ,其 中 只 包含 了 一 个 通用 的 visit 方法 。 

第 11 章 中 Decaf 编译 器 的 代码 结构 采用 了 Visitor 设计 模式 ,用 以 多 次 遍历 AST 完成 
不 同 的 处 理 。 


w= J 


1. PL/0 编译 器 的 符号 表 采 用 一 个 全 局 的 单 符号 表 栈 结构 。 对 于 下 列 的 PL/0 程序 片 
段 , 当 PL/0 编译 器 在 处 理 到 第 一 个 call p 语句 (第 7 行 ) 以 及 第 二 个 call p 语句 (第 1 行 , 即 
过 程 q 的 第 4 行 ) 时 , 试 分 别 列 出 每 个 开 作 用 域 中 的 符号 。 


(1) var a,b; 

(2) procedure p; 

(3) var s; 

(4) procedure r; 
(5) var v; 
(6) begin 


(7) call p; 
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end; 
begin 
If a< b then call r; 


end; 


var X+y3 
begin 
(2) call p; 


end. 


2. 阅读 PL/0 编译 程序 的 符号 表 数 据 结构 (struct tablestruct table [tmax]) 以 及 查 表 
Gnt position(…)) 添加 符号 (void enter(…)) 等 操作 , 读 懂 与 符号 表 相 关 的 代码 ,包括 理解 
作用 域 是 如 何 体现 的 (注意 函数 void enter(…) 的 形 参 lev), 

3. 在 8.3.3.2 节 的 翻译 模式 中 ,已 经 包含 了 有 关 指 针 类 型 说 明 的 处 理 。 参 考 8. 3. 3. 3 节 
中 数组 元 素 引 用 的 处 理 , 试 给 出 指针 引用 的 翻译 模式 片段 。 设 基础 文法 中 指针 引用 相关 的 


产生 式 包 含 : 
S 一 *E :一 下 
S 一 id :=*E 
E> F> 


注 : 指针 访问 的 TAC 184) 4 x t= *y foxx :二 y。 

4. 参考 8. 3. 3.4 节 采 用 短路 代码 进行 布尔 表达 式 翻 译 的 万 翻 译 模式 片段 及 所 用 到 的 
语义 函数 。 若 在 基础 文法 中 增加 产生 式 E>E^E, 试 给 出 与 该 产生 式 相应 的 语义 动作 集合 。 
其 中 ,个 代表 “与 非 ? 迎 辑 算 符 ,其 语义 可 用 其 他 逻辑 运算 定义 为 P+Q = not (P and Q). 

5. 参考 8.3.3.5 节 进 行 控制 语句 (不 含 break) 翻 译 的 万 翻 译 模 式 片 段 及 所 用 到 的 语义 函 
数 。 若 在 基础 文法 中 增加 产生 式 S— repeat S until E, 试 给 出 与 该 产生 式 相 应 的 语义 动作 
集合 。 

注 : 控制 语句 repeat 必 循环 体 二 until 一 布尔 表达 式 二 的 语义 为 : 至 少 执行 二 循环 体 二 一 
次 ,直到 一 布尔 表达 式 二 成 真 时 结束 循环 。 

6. 参考 8. 3. 3. 6 节 采 用 拉链 与 代码 回填 技术 进行 布尔 表达 式 和 控制 语句 (不 含 break) 
翻译 的 S- 翻 译 模式 片段 及 所 用 到 的 语义 函数 ,重复 题 4 和 题 5 的 工作 。 

7. 参考 8. 3. 3. 5 节 进 行 控制 语句 (不 含 break) 翻 译 的 工 -翻译 模式 片段 及 所 用 到 的 语 
义 函 数 。 设 在 该 翻译 模式 基础 上 增加 下 列 两 条 产生 式 及 相应 的 语义 动作 集合 : 

S—>{S'. next :=S. next} S' {S. code :=S'. code} 

S'> id :=F' {S. code :=E'. code|| gen(id. place ':=' E’, place)} 
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其 中 ,已 是 生成 算术 表达 式 的 非 终结 符 ( 对 应 8. 3. 3. 1 节 中 的 A)。 若 在 基础 文法 中 增加 对 应 
for 循环 语句 的 产生 式 Sfor(S’; E; S )S, 试 给 出 与 该 产生 式 相应 的 语义 动作 集合 。 

注 : for 循环 语句 的 控制 语义 类 似 于 C 语言 中 的 for 循环 语句 。 

8. 参考 8. 3. 3. 6 节 采 用 拉链 与 代码 回填 技术 进行 布尔 表达 式 和 控制 语句 (不 含 break) 
翻译 的 S- 翻 译 模式 片段 及 所 用 到 的 语义 函数 。 设 在 该 翻译 模式 基础 上 增加 下 列 两 条 产生 


式 及 相应 的 语义 动作 集合 : 
S-s' {S. nextlist :一 S' .nextlist} 
S 一 id :一 已 {S' nextlist :一 ""; emit (id. place ':=' E'. place)} 


其 中 ,E' 是 生成 算术 表达 式 的 非 终 结 符 ( 对 应 8. 3. 3. 1 节 中 的 A)。 若 在 基础 文法 中 增加 对 
应 for 循环 语句 的 产生 式 Sfor(S’; E; S')S, 试 给 出 相应 该 产生 式 的 语义 动作 集合 。 

注 : for 循环 语句 的 控制 语义 类 似 C 语言 中 的 for 循环 语句 。 

9. 参考 8. 3. 3. 6 节 采 用 拉链 与 代码 回填 技术 进行 布尔 表达 式 翻译 的 S- 翻 译 模式 片段 
及 所 用 到 的 语义 函数 。 若 在 基础 文法 中 增加 产生 式 

E>AC(E, E , E) 
其 中 A RR = FEE IS TEE. BRER AE E ,Es) 的 语义 可 由 下 表 定 义 : 


E, E: E; ACE, E: , E3) 
false false false false 
false false true false 
false true false true 
false true true false 
true false false false 
true false true false 
true true false false 
true true true false 


试 给 出 相应 该 产生 式 的 语义 处 理 部 分 (必要 时 增加 文法 符号 ,类 似 8. 3. 3. 6 节 示 例 中 的 
符号 M AlN) ,不 改变 S- 属 性 文法 (翻译 模式 ) 的 特征 。 
10. 重复 上 题 的 工作 ,逻辑 表达 式 ACE, ,E, ,Es) 的 语义 由 下 表 定义 : 


E, E: E; ACE, ,E: ,E3) 
false false false false 
false false true false 
false true false true 
false true true true 
true false false true 
true false true false 
true true false true 
true true true false 
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11. 设 开关 语句 
switch A of 


case dı: Si; 
case dz; S2; 


case da: Sys 
default S,., 


end 


具有 如 下 执行 语义 : 
(1) 对 算术 表达 式 A 进行 求 值 。 
(2) E A 的 取 值 为 di, 则 执行 S1, 转 (3); 
否则 ,车 A 的 取 值 为 d;, 则 执行 S: , 转 (3); 


否则 ,车 A 的 取 值 为 d,, 则 执行 S,, 转 (3); 
否则 ,执行 S,+1 , 转 (3) 。 

(3) 结束 该 开关 语句 的 执行 。 

若 在 基础 文法 中 增加 关于 开关 语句 的 下 列 产生 式 

S—>switch A of L end 

工 一 caseV: S; L 

工 一 default S 

Vd 
其 中 ,终结 符 d 代表 常量 ,其 属性 值 可 由 词法 分 析 得 到 ,以 d. lexval 表示 。A 是 生成 算术 表 
达 式 的 非 终结 符 ( 对 应 8. 3. 3. 1 节 中 的 A)。 

试 参考 8. 3. 3. 5 节 进 行 控制 语句 (不 含 break) 翻 译 的 L- 翻 译 模 式 片段 及 所 用 到 的 语义 
函数 ,给 出 相应 的 语义 处 理 部 分 (不 改变 三 翻译 模式 的 特征 ) 。 

注 : 可 设计 增加 新 的 属性 ,必要 时 给 出 解释 。 

12. 参考 8.3.3.5 节 和 8. 3.3.6 节 所 中 关于 控制 语句 (不 含 break) 翻 译 的 两 类 翻译 模 
式 中 的 任何 一 种 及 所 用 到 的 语义 函数 ,给 出 下 列 控制 语句 的 一 个 翻译 模式 片段 : 

(1) 在 基础 文法 中 增加 关于 串 行 条 件 卫士 语句 的 下 列 产生 式 : 

S>if G fi 

G>E: SOG 

GE: S 

注 : 串 行 条 件 卫 士 语 句 的 一 般 形 式 为 

if E: S,OE,: S,O-OE,: S, fi 

将 其 语义 解释 为 : 

O 依次 判断 布尔 表达 式 E ,E,,…,E, 的 计算 结果 。 

@ 若 计算 结果 为 true 的 第 一 个 表达 式 为 E, <k<n) , 则 执行 语句 S; ; 执行 后 转 (4) 。 

O # EE: E, 的 计算 结果 均 为 false , 则 直接 转 (4) 。 

© 跳出 该 语句 。 
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(2) 在 基础 文法 中 增加 关于 串 行 循 环卫 士 语句 的 下 列 产生 式 : 
S—>do G od 
G>E:; SUG 
G=E; S 
注 : 串 行 循环 卫士 语句 的 一 般 形 式 为 
do E: SOE,: S: 0+ O0E,: S, od 
将 其 语义 解释 为 : 
O 依次 判断 布尔 表达 式 E, ,E,,… ,EE 的 计算 结果 。 
© 若 计算 结果 为 true 的 第 一 个 表达 式 为 E Akn) , 则 执行 语句 Si; HO). 
© 若 Ey, Ex, E, 的 计算 结果 均 为 false, 则 跳出 循环 。 
13. (1) 以 下 是 与 语句 及 过 程 声明 相关 的 类 型 检查 的 一 个 翻译 模式 片段 : 
P>D;S {P. type :=if D. type=ok and S. type=ok then ok else type_error} 
Sif E then S, {S. type :=if E. type=bool then S,. type else type_error} 
Sif E then S, else S,{S. type :=if E. type=bool and S,. type=ok and S,. type=ok 
then ok else type_error} 
S 一 while E then Sı {S. type :=if E. type=bool then Si. type else type_error} 
SS 一 Si; S: {S. type :=if Si.type 一 ok and Sz. type=ok then ok else type_ 
error} 
F>F\; id (V) S {addtype(id. entry, fun(V. type)); 
F. type :=if F,. type=ok and S. type=ok then ok else type_ 
error} 
其 中 ,type 属性 以 及 类 型 表达 式 ok \type_error, bool 等 的 含义 与 8. 2.2.2 节 中 一 致 。 
车 在 基础 文法 中 增加 关于 continue 语句 的 产生 式 
S~continue 
continue 语句 只 能 出 现在 某 个 循环 语句 内 , 即 至 少 有 一 个 包围 它 的 while 语句 。 
试 在 该 翻译 模式 片段 基础 上 增加 相应 的 语义 处 理 内 容 ( 要 求 是 L- 翻 译 模式 ) ,以 实现 针 
对 continue 语句 的 这 一 类 型 检查 任务 (提示 : 可 以 引入 S 的 一 个 继承 属性 ) 。 
(2) 以 下 是 一 个 -翻译 模式 片段 ,可 以 产生 控制 语句 的 TAC 语句 序列 : 
P=D; {S. next *=newlabel} S {gen(S. next ':')} 
S>if {E. true :一 newlabel; E. false :一 S. next} E then 
{Si. next :一 S. next} S, {S. code :=E. code|| gen(E. true ';') || S;. code} 


S>while {E. true :一 newlabel; E. false :一 S. next} E do 
{S;. next += newlabel} S, 
{S. code :=gen(Si. next ':) || E. code || gen (E. true ':) || 
Sı. code|| gen(goto 'S;. next) } 
oF {S,. next :一 newlabel}) S,; 


{S,. next :一 S. next} Sz 
{S. code *=S,. code|| gen(S,. next ':") || S}. code} 
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其 中 的 属性 及 语义 函数 与 8. 3. 3. 5 节 中 一 致 。 
若 在 基础 文法 中 增加 关于 continue 语句 的 产生 式 
S>continue 
这 里 ,continue 语句 的 执行 语义 为 : 跳出 直接 包含 该 continue 语句 的 while 循环 体 ,并 回 到 
while 循环 的 开始 处 重新 执行 循环 。 
试 在 该 广 翻译 模式 片段 基础 上 增加 针对 continue 语句 的 语义 处 理 内 容 ( 不 改变 广 翻 译 
模式 的 特征 ) 。 
注 : 可 设计 引入 新 的 属性 或 删除 旧 的 属性 ,必要 时 给 出 解释 。 
(3) 以 下 是 一 个 S- 翻 译 模式 片段 ,可 以 产生 控制 语句 的 TAC 语句 序列 : 
P>D; SM {backpatch(S. nextlist, M. gotostm) } 
Sif E then Mi S, N else M: S: {backpatch(E. truelist. Mi. gotostm) ; 
backpatch(E. falselist, M2. gotostm) ; 
S. nextlist := merge( Si. nextlist, merge(N. nextlist, 
Sz. nextlist) )} 
S 一 while M, E then M, S, {backpatch(S,. nextlist, M,. gotostm) ; 
backpatch(E. truelist. Mz. gotostm) ; 
S. nextlist :=E. falselist; 
emit('goto', Mi. gotostm) } 
S>S,; MS, { backpatch(S,. nextlist, Mi. gotostm) ; 
S. nextlist := S,. nextlist} 
Me {M. gotostm := nextstm} 
N>e {N. nextlist #=makelist(nextstm) ; emit('goto _')} 
其 中 的 属性 及 语义 函数 与 8. 3. 3. 6 中 一 致 。 
车 在 基础 文法 中 增加 关于 continue 语句 的 产生 式 
S—>continue 
这 里 ,continue 语句 的 执行 语义 如 (2) 所 述 。 
试 在 该 S- 翻 译 模 式 片段 基础 上 增加 针对 continue 语句 的 语义 处 理 内 容 ( 不 改变 S- 翻 
译 模 式 的 特征 )。 
注 : 可 设计 引入 新 的 属性 或 删除 旧 的 属性 ,必要 时 给 出 解释 。 
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BIS 运行 时 存储 组 织 


目标 程序 在 目标 机 环境 中 运行 时 ,都 置身 于 自己 的 一 个 运行 时 存储 空间 。 通 常 ,在 有 操 
作 系统 的 情况 下 ,目标 程序 将 在 自己 的 逻辑 地 址 空间 内 存储 和 和 运行。 这样, 编译 程序 在 生成 
目标 代码 时 应 该 明确 程序 的 各 类 对 象 在 逻辑 地 址 空间 内 是 如 何 存 储 的 ,以 及 目标 代码 运行 
时 是 如 何 使 用 和 支配 自己 的 迎 辑 存储 空间 的 。 本 章 讨论 一 些 典 型 的 与 运行 时 存储 组 织 相关 
的 问题 。 首 先 ,简要 叙述 运行 时 存储 组 织 的 作用 与 任务 ,程序 运行 时 存储 空间 的 典型 布局 ， 
以 及 常见 的 运行 时 存储 分 配 策略 。 接 着 ,重点 讨论 实现 栈 式 存储 分 配 时 栈 帧 ( 即 活动 记录 ) 
的 组 织 。 随 后 ,讨论 实现 过 程 调用 中 参数 传递 的 话题 。 然 后 ,穿插 介绍 PL/0 编译 程序 的 运 
行 时 存储 组 织 。 最 后 ,就 面向 对 象 程序 的 运行 时 存储 组 织 的 有 关 问 题 进行 讨论 。 


9.1 运行 时 存储 组 织 概述 


9.1.1 运行 时 存储 组 织 的 作用 与 任务 


如 上 所 述 , 编 译 程序 在 生成 目标 程序 之 前 应 该 合理 安排 好 目标 程序 在 逻辑 地 址 空间 中 
存储 资源 的 使 用 ,这 便 是 运行 时 存储 组 织 所 涉及 的 问题 。 

编译 程序 所 产生 的 目标 程序 本 身 的 大 小 通常 是 确定 的 ,一 般 存放 在 指定 的 专用 存储 区 
域 , 即 代码 区 。 相 应 地 ,目标 程序 运行 过 程 中 需要 创建 或 访问 的 数据 对 象 将 存放 在 数据 区 。 
数据 对 象 包括 用 户 定义 的 各 种 类 型 的 命名 对 象 ( 如 变量 和 常量 )、 作 为 保留 中 间 结 果 和 传递 
参数 的 临时 对 象 及 调用 过 程 时 所 需 的 连接 信息 等 。 

语言 特征 的 差异 对 于 存储 组 织 方面 的 不 同 需求 往往 取决 于 数据 对 象 的 存储 分 配 。 因 
此 ,本 节 讨 论 的 主要 内 容 是 面向 数据 对 象 的 运行 时 存储 组 织 与 管理 。 以 下 列举 了 运行 时 存 
储 组 织 通常 所 关注 的 几 个 重要 问题 

。 数据 对 象 的 表示 。 需 要 明确 源 语言 中 各 类 数据 对 象 在 目标 机 中 的 表示 形式 。 

。 表达 式 计 算 。 需 要 明确 如 何 正 确 有 效 地 组 织 表达 式 的 计算 过 程 。 

。 存储 分 配 策略 。 核 心 问题 是 如 何 正 确 有 效 地 分 配 不 同 作用 域 或 不 同 生 命 周期 的 数 

据 对 象 的 存储 。 

。 过 程 实现 。 如 何 实现 过 程 /函数 调用 以 及 参数 传递 。 

数据 对 象 在 目标 机 中 通常 是 以 字 节 (byte) 为 单位 分 配 存储 空间 。 例 如 ,对 于 基本 数据 
类 型 ,可 以 设 定 基本 数据 对 象 的 大 小 为 : char 数据 对 象 ,1 个 字 节 ; integer 数据 对 象 ,4 个 字 
节 ; float 数据 对 象 ,8 个 字 节 ; boolean 数据 对 象 ,1 个 字 节 。 对 于 指针 类 型 的 数据 对 象 , 通 
常 分 配 1 个 单位 字 长 的 空间 ,如 在 32 位 机 器 上 1 个 单位 字 长 为 4 个 字 节 。 

对 于 数据 对 象 的 存放 ,不 同 的 目标 机 可 能 在 某 些 方面 有 不 同 的 要 求 。 例 如 ,一 些 机 器 中 的 
数据 是 以 大 端 (big endian) 形 式 存放 ,而 另 一 些 机 器 中 的 数据 则 是 以 小 端 (little endian) 形 式 存 
放 。 许 多 机 器 会 要 求 数据 对 象 的 存储 访问 地 址 以 一 定 方式 对 齐 (alignment) ,如 必须 可 以 被 2， 
4,8 等 整除 ,这 种 情况 下 某 些 字 节 数 不 足 的 数据 对 象 在 存放 时 需要 考虑 留 白 (padding) 处 理 。 
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复合 数据 类 型 的 数据 对 象 通常 根据 它 的 组 成 部 分 依次 分 配 存 储 空间 。 对 于 数组 类 型 的 
数据 对 象 ,通常 是 分 配 一 块 连续 的 存储 空间 。 对 于 多 维 数组 ,可 以 按 行 进行 存放 ,也 可 以 按 
列 进行 存放 。 对 于 结构 体 类 型 ,通常 以 各 个 域 为 单位 依次 分 配 存储 空间 ,对 于 复杂 的 域 数据 
对 象 可 以 另 尽 空间 进行 存放 。 对 于 对 象 类 型 (类 ) 的 数据 对 象 ,实例 变量 像 结 构 体 的 域 一 样 
存放 在 一 块 连续 的 存储 区 ,而 方法 (成 员 函 数 ) 则 存放 在 其 所 属 类 的 代码 区 。 

表达 式 计 算是 程序 状态 变化 的 根本 原因 ,频繁 涉及 存储 访问 的 操作 。 通 常 ,表达 式 计 算 
多 利用 栈 区 完成 的 ,临时 量 和 计算 结果 (或 指向 它们 的 指针 ) 的 存储 空间 一 般 被 分 配 在 当前 
过 程 活动 记录 (参见 第 9.4 节 ) 的 顶部 。 

某 些 目标 机 设计 了 专门 的 运算 数 栈 (或 专用 寄存 器 栈 ) 用 于 表达 式 计 算 。 对 于 普通 表达 
式 ( 不 含 函 数 调用 ) 而 言 ,一般 可 以 估算 出 可 否 在 运算 数 栈 上 实现 完整 的 计算 。 在 不 能 实现 
完整 计算 时 ,可 以 考虑 在 运算 数 栈 上 实现 部 分 计算 ,而 利用 栈 区 辅助 完成 全 部 计算 。 当 然 ， 
某 些 情况 下 表达 式 的 计算 只 能 利用 栈 区 实现 ,比如 对 于 使 用 了 递归 函数 的 表达 式 。 

关于 存储 分 配 策略 以 及 过 程 实现 ,将 在 后 续 各 节 中 讨论 。 


9.1.2 程序 运行 时 存储 空间 的 布局 


虽然 一 般 来 说 程序 运行 时 的 存储 空间 从 多 辑 上 可 分 为 “代码 区 ”和 “数据 区 ”两 个 主要 部 
分 ,但 为 了 方便 存储 组 织 与 管理 ,往往 需要 将 存储 空间 划分 为 更 多 的 敢 辑 区 域 。 具 体 的 划分 
方法 会 依赖 于 目标 机 体系 结构 ,但 一 般 情况 下 至 少 含 有 保留 地 址 区 、 代 码 区 、 静 态 数据 区 以 
及 动态 数据 区 等 迎 辑 区 域 。 图 9. 1 给 出 一 个 程序 运行 时 存储 空间 布局 的 典型 例子 。 

对 于 图 9. 1 中 各 逻辑 存储 区 域 ,下 面 分 别 予 以 简单 解释 : 


。 保 留 地 址 区 。 专 门 为 目标 机 体系 结构 和 操作 系统 保留 “一 
的 内 存 地 址 区 。 通 常 ,该 区 域 不 允许 普通 的 用 户 程序 
存 取 ,只 允许 操作 系统 的 某 些 特权 操作 进行 读 写 。 | 

。 代码 区 。 静 态 存放 编译 程序 产生 的 目标 代码 。 堆 空间 

”静态 数据 区 。 静 态 存 放 全 局 数据 ,是 普通 程序 可 读 可 库 和 分 别 
写 的 区 域 。 该 区 域 用 于 存放 程序 中 用 到 的 所 有 常量 人 
数据 对 象 (如 字符 串 常量 、 数 值 常量 以 及 各 种 命名 常 Pakis 
量 等 ), 以 及 各 类 全 局 变量 和 前 态 变量 所 对 应 的 数据 goog m 
对 象 。 

。 共享 库 和 分 别 编译 模块 区 。 静 态 存放 共享 库 模块 和 分 “图 9.1 程序 运行 时 存储 空 
别 编译 模块 的 代码 和 全 局 数据 。 运 行 库 模 块 主要 用 来 间 布 局 的 典型 例子 


实现 运行 时 支持 ,如 W/O 存储 管理 ,执行 期 采样 (profiling) 以 及 调试 等 方面 的 例 程 。 
分 别 编译 模块 主要 包含 编译 系统 或 用 户 预先 定制 的 有 用 子 程序 和 软件 包 ( 如 数学 子 
函数 库 ) 。 这 些 模块 是 通过 链接 / 装 入 程序 (linker/loader) 的 装配 而 加 入 到 当前 程序 
的 存储 空间 的 。 

动态 数据 区 。 运 行 时 动态 变化 的 堆 区 和 栈 区 。 图 9. 1 中 假设 堆 区 从 低地 址 端 向 高 
地 址 变化 , 栈 区 从 高 地 址 端 向 低地 址 变化 。 程 序 开始 执行 时 会 初始 化 堆 区 和 栈 区 。 
一 旦 堆 区 和 栈 区 在 某 个 时 刻 相遇 , 则 会 发 生存 储 访问 冲突 ,因此 每 个 会 使 堆 区 和 栈 
区 增长 的 操作 都 必须 检查 是 否 会 产生 这 种 冲突 。 如 果 冲 突 发 生 , 则 可 能 的 解决 方法 
是 调用 垃圾 回收 (garbage collection) 或 存储 空间 压缩 (compaction) 程 序 将 堆 区 和 栈 
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区 分 离 。 

值得 注意 的 是 ,程序 运行 时 的 存储 空间 布局 与 目标 机 体系 结构 和 操作 系统 密切 相关 。 
例如 ,IA-32 上 某 个 Linux 版 本 的 用 户 程序 虚拟 存储 空间 如 图 9. 2(a) 所 示 , MIPS-32 上 
System V 的 用 户 程序 虚拟 存储 布局 空间 如 图 9.2(b) 所 示 。 


0xBFFFFFFF 一 一 0x7FFFFFFF 一 一 | 
栈 空间 栈 空间 
堆 空间 堆 空 间 
Ox10000000 ee 0x 10000000 一 一 | Li ae 
0x8048000 一 一 | RA 0x400000 nR 
(a) Linux on IA-32 (b) System V on MIPS-32 


图 9.2 不 同体 系 结构 和 操作 系统 的 用 户 程序 虚拟 存储 空间 示例 


9.1.3 存储 分 配 策略 


从 9.1.2 节 已 知 ,数据 区 可 以 分 为 静态 数据 区 (全 局 数据 区 ) 和 动态 数据 区 ,后 者 又 可 分 
为 堆 区 和 栈 区 。 之 所 以 这 样 划 分 ,是 因为 它们 存放 的 数据 和 对 应 的 管理 方法 的 不 同 。 静 态 
数据 区 、 栈 区 和 堆 区 的 存储 空间 分 配 分 别 遵循 3 种 不 同 的 规则 : 静态 存储 分 配 (static 
memory allocation) 、 栈 式 存储 分 配 (stack-based allocation) 和 堆 式 存储 分 配 (heap-based 
allocation) 。 后 两 种 分 配方 式 皆 称 为 “动态 存储 分 配 ”, 因 为 这 两 种 方式 中 存储 空间 并 不 是 
在 编译 的 时 候 静 态 分 配 好 的 ,而 是 在 运行 时 才 进 行 的 。 

某 些 编程 语言 ,如 早期 的 FORTRAN 语言 及 COBOL 语言 版 本 等 ,其 存储 分 配 是 完全 
静态 的 ,程序 的 数据 对 象 与 其 存储 的 绑 定 (binding) 是 在 编译 期 间 进 行 的 , 称 为 静态 语言 
(static language) 。 而 对 于 另 一 些 语 言 , 所 有 数据 对 象 与 其 存储 的 绑 定 只 能 发 生 在 运行 期 
间 ,此 类 语言 称 为 动态 语言 (dynamic language) ,如 Lisp, ML, Perl 等 。 多 数 语言 (如 C/C+ 
+ „Java, Pascal 等 ) 采 取 的 存储 分 配 策略 是 介 于 二 者 之 间 的 。 

下 面 分 别 讨论 静态 . 栈 式 和 堆 式 3 种 存储 分 配 策略 。 


9.1.3.1 静态 存储 分 配 


所 谓 静态 存储 分 配 , 即 在 编译 期 间 为 数据 对 象 分 配 存储 空间 。 这 要 求 在 编译 期 间 就 可 
确定 数据 对 象 的 大 小 ,同时 还 可 以 确定 数据 对 象 的 数目 。 

采用 这 种 方式 ,存储 分 配 极 其 简单 ,但 也 会 带 来 存储 空间 的 浪费 。 为 解决 存储 空间 浪费 
问题 ,人 们 设计 了 变量 的 重 琶 布局 (overlaying) 机 制 , 如 FORTRAN 语言 的 equivalence iff 
句 。 重 全 布局 带 来 的 问题 是 使 得 程序 难 写 难 读 。 完 全 静态 分 配 的 语言 还 有 另 一 个 缺陷 ,就 
是 无 法 支持 递归 过 程 或 函数 。 

多 数 ( 现 代 ) 语 言 只 实施 部 分 静态 存储 分 配 。 可 静态 分 配 的 数据 对 象 包括 大 小 固定 且 在 
程序 执行 期 间 可 全 程 访问 的 全 局 变量 .静态 变量 .程序 中 的 常量 (literals) 以 及 class 的 虚 函 
数 表 等 ,如 C 语言 中 的 static 和 extern 变量 .以 及 C++ 中 的 static 变量 ,这些 数据 对 象 的 存 
储 将 被 分 配 在 静态 数据 区 。 
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从 道理 上 讲 ,或 许可 以 将 静态 数据 对 象 与 某 个 绝对 存储 地 址 绑 定 。 然 而 ,通常 的 做 法 是 
将 静态 数据 对 象 的 存 取 地 址 对 应 到 偶 对 (DataAreaStart, Offset), Offset 是 在 编译 时 刻 确 
定 的 固定 偏 移 量 , 而 DataAreaStart 则 可 以 推迟 到 链接 或 运行 时 刻 才 确定 。 有时， 
DataAreaStart 的 地 址 也 可 以 装 入 某 个 基地 址 寄存 器 Register, 此 时 数据 对 象 的 存 取 地 址 对 
应 到 偶 对 (Register,Offset) , 即 所 谓 的 寄存 器 偏 址 寻 址 方式 。 

然而 ,对 于 一 些 动态 的 数据 结构 ,例如 动态 数组 (C++ 中 使 用 new 关键 字 来 分 配 内 存 ) 
以 及 递归 函数 的 局 部 变量 等 最 终 空 间 大 小 必须 在 运行 时 才能 确定 的 场合 ,静态 存储 分 配 就 
无 能 为 力 了 。 


9.1.3.2 栈 式 存储 分 配 


栈 区 是 作为 “ 栈 ? 这 样 一 种 数据 结构 来 使 用 的 动态 存储 区 , 称 为 运行 栈 (runrtime 
stack) 。 运 行 栈 数据 空间 的 存储 和 管理 方式 称 为 栈 式 存 储 分 配 , 它 将 数据 对 象 的 运行 时 存 
储 按照 栈 的 方式 来 管理 ,常用 于 有 效 实现 可 动态 肉 套 的 程序 结构 ,如 过 程 、 函 数 以 及 嵌 套 程 
序 块 (分 程序 ) 等 。 

与 静态 存储 分 配方 式 不 同 , 栈 式 存储 分 配 是 动态 的 ,也 就 是 说 必须 是 运行 的 时 候 才 能 确 
定数 据 对 象 的 存储 分 配 结果 。 例 如 ,对 如 下 C 代码 片段 : 

int factorial (int n) 

{ 

int tmp; 
if (a<=1) 
return 1; 
else 
{ 
tmp 一 n 一 1; 
tmp 一 nx factorial(tmp) ; 


return tmp; 


} 


BER n 的 不 同 ,这 段 代 码 运行 时 所 需要 的 总 内 存 空间 大 小 是 不 同 的 ,而 且 每 次 递归 的 时 
WE tmp 对 应 的 内 存单 元 都 不 同 。 

在 过 程 /函数 的 实现 中 ,参与 栈 式 存储 分 配 的 存储 单位 是 活动 记录 (activation record) 。 
运行 时 每 当 进入 一 个 过 程 /函数 ,就 在 栈 顶 为 该 过 程 /函数 分 配 存放 活动 记录 的 数据 空间 。 
当 一 个 过 程 /函数 工作 完毕 返回 时 , 它 在 栈 项 的 活动 记录 数据 空间 也 随即 释放 。 

在 过 程 /函数 的 某 一 次 执行 中 ,其 活动 记录 中 会 存放 生存 期 在 该 过 程 /函数 本 次 执行 中 
的 数据 对 象 以 及 必要 的 控制 信息 单元 。 相 关内 容 将 在 9. 2 节 进 行 专门 讨论 ;同时 ,也 会 讨论 
关于 由 套 程序 块 的 栈 式 存储 分 配 。 一 般 来 说 ,运行 栈 中 的 数据 通常 都 是 属于 某 个 过 程 /函数 
的 活动 记录 ,因此 车 没有 特别 指明 ,本 书 提 到 的 活动 记录 均 是 指 过 程 /函数 的 活动 记录 。 

在 编译 期 间 , 过 程 . 函 数 以 及 嵌 套 程序 块 的 活动 记录 大 小 (最 大 值 ) 应 该 是 可 以 确定 的 
(以 便 进入 的 时 候 动态 地 分 配 活动 记录 的 空间 ) ,这 是 进行 栈 式 存储 分 配 的 必要 条 件 , 如 果 不 
满足 则 应 该 使 用 堆 式 存储 管理 。 
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9.1.3.3 EREDE 


当 数 据 对 象 的 生存 期 与 创建 它 的 过 程 /函数 的 执行 期 无 关 时 ,例如 , 某 些 数 据 对 象 可 能 
在 该 过 程 /函数 结束 之 后 仍然 长 期 存在 .就 不 适合 进行 栈 式 存储 分 配 。 一 种 灵活 但 是 较 昂贵 
的 存储 分 配方 法 是 堆 式 存储 分 配 。 在 堆 式 存储 分 配 中 ,可 以 在 任意 时 刻 以 任意 次 序 从 数据 
段 的 堆 区 分 配 和 释放 数据 对 象 的 运行 时 存储 空间 。 通 常 ,分 配 和 释放 数据 对 象 的 操作 是 应 
用 程序 通过 向 操作 系统 提出 申请 来 实现 的 ,因此 要 占用 相当 的 时 间 。 

堆 区 存储 空间 的 分 配 和 释放 可 以 是 显 式 的 (explicit allocation/deallocation) ,也 可 以 是 
隐 式 的 (implicit allocation/deallocation)。 前 者 是 指 由 程序 员 来 负责 应 用 程序 的 ( 堆 ) 存 储 
空间 管理 ,可 借助 于 编译 器 和 运行 时 系统 所 提供 的 默认 存储 管理 机 制 。 后 者 是 指 ( 堆 ) 存 储 
空间 的 分 配 或 释放 不 需要 程序 员 负 责 , 而 是 由 编译 器 和 运行 时 系统 自动 完成 。 

某 些 语言 有 显 式 的 存储 空间 分 配 和 释放 命令 ,如 Pascal 中 的 new/deposit,C++ 中 的 
newy/delete。 在 C 语言 中 没有 显 式 的 存储 空间 分 配 和 释放 语句 ,但 程序 员 可 以 使 用 标准 库 
中 的 函数 malloc() 和 free() 来 实现 显 式 的 分 配 和 释放 。 

某 些 语言 支持 隐 式 的 堆 区 存储 空间 释放 ,这 需要 借助 垃圾 回收 (garbage collection) 机 
制 。 例 如 ,Java 程序 员 不 需要 考虑 对 象 的 析 构 , 堆 区 存储 空间 的 释放 是 由 垃圾 回收 程序 
(garbage collector) 自动 完成 的 。 

对 于 堆 区 存储 空间 的 释放 ,下 面 简单 讨论 一 下 不 释放 、 显 式 释 放 以 及 隐 式 释放 3 种 方案 
的 利弊 。 

。 不 释放 堆 区 存储 空间 的 方法 。 这 种 方法 只 分 配 空间 ,不 释放 空间 , 竺 空间 耗 尽 时 停 
止 。 如 果 多 数 堆 数 据 对 象 为 一 旦 分 配 后 永久 使 用 ,或 者 在 虚 存 很 大 而 无 用 数据 对 象 
不 致 带 来 很 大 零乱 的 情形 下 ,那么 这 种 方案 有 可 能 是 适合 的 。 这 种 方案 的 存储 管理 
机 制 很 简单 ,开销 很 小 ,但 应 用 面 很 窒 , 不 是 一 种 通用 的 解决 方案 。 

显 式 释放 堆 区 存储 空间 的 方法 。 这 种 方法 是 由 用 户 通 过 执行 释放 命令 来 清空 无 用 
的 数据 空间 ,存储 管理 机 制 比较 简单 ,开销 较 小 , 堆 管理 程序 只 维护 可 供 分 配 命令 使 
用 的 空闲 空间 。 然 而 ,该 方案 的 问题 是 对 程序 员 要 求 过 高 ,程序 的 逻辑 错误 有 可 能 
导致 灾难 性 的 后 果 。 如 图 9. 3 中 代码 所 示 的 指针 悬挂 (dangling pointer) 问 题 。 

隐 式 释放 堆 区 存储 空间 的 方法 。 该 方 
案 的 优点 是 程序 员 不 必 考 虑 存储 空间 |: : 
WRR RARE KRK EZR ro: Eoi 
的 问题 ,但 缺点 是 对 存储 管理 机 制 要 

求 较 高 ,需要 堆 区 存储 空间 管理 程序 
具备 垃圾 回收 的 能 力 。 (a) Pascal 代 码 片断 (b) C++ 代码 片断 

由 于 在 堆 式 存储 分 配 中 可 以 在 任意 时 刻 。 图 9.3 存在 指针 悬挂 问题 的 代码 片段 
以 任意 次 序 分 配 和 释放 数据 对 象 的 存储 空间 ， 
因此 程序 运行 一 段 时 间 之 后 堆 区 存储 空间 可 能 被 划分 成 许多 块 , 有 些 被 占用 .有 些 空闲 。 对 
于 堆 区 存储 空间 的 管理 ,通常 需要 好 的 存储 分 配 算法 ,使 得 在 面 对 多 个 可 用 的 空闲 存储 块 
时 ,根据 某 些 优化 原则 选择 最 合适 的 一 个 分 配给 当前 数据 对 象 。 以 下 是 几 类 常见 的 存储 分 
配 算法 : 

。 最 佳 适应 算法 , 即 选 择 空间 浪费 最 少 的 存储 块 。 


var p,q:*real; float *p, *q; 


q:=p; 
dispose (p); delete p; 
q^:=1.0; *q:=1.0; 
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。 最 先 适 应 算法 , 即 选择 最 先 找到 的 足够 大 的 存储 块 。 

。 循环 最 先 适应 算法 , 即 起 始点 不 同 的 最 先 适 应 算法 。 

另外 ,由 于 每 次 分 配 后 一 般 不 会 用 尽 空闲 存储 块 的 全 部 空间 ,而 这 些 剩余 的 空间 又 不 适 
于 分 配给 其 他 数据 对 象 ,因而 在 程序 运行 一 段 时 间 之 后 , 堆 区 存储 空间 可 能 出 现 许 多 *“ 碎 
H” o 这样, 堆 区 存储 空间 的 管理 中 通常 需要 用 到 碎片 整理 算法 ,用 于 压缩 合并 小 的 存储 块 ， 
使 其 更 可 用 。 

有 关 垃 圾 回收 、 存 储 分 配 、 碎 片 整理 等 算法 的 内 容 超 出 了 本 书 的 范围 有 兴趣 的 读者 可 
参考 其 他 相关 书籍 的 讨论 ,部 分 内 容 也 可 参考 数据 结构 和 操作 系统 课程 的 相关 话题 。 


9.2 活动 记录 


本 节 进 一 步 讨论 栈 式 存储 分 配 的 若干 重要 内 容 , 这 些 内 容 都 与 活动 记录 密切 相关 。 首 
先 , 介 绍 过 程 /函数 运行 时 活动 记录 (简称 过 程 活动 记录 ) 的 典型 结构 。 其 次 ,讨论 针对 含 嵌 
套 过 程 说 明 语 言 的 栈 式 分 配 中 需要 解决 一 个 重要 问题 , 即 非 局 部 量 的 访问 。 最 后 ,简要 讨论 
关于 和 骨 套 程序 块 中 非 局 部 量 的 访问 。 


9.2.1 过 程 活动 记录 


过 程 活动 记录 是 指 运行 栈 上 的 栈 帧 (frame) , 它 在 函数 /过 程 调用 时 被 创建 ,在 函数 /过 
程 运行 过 程 中 被 访问 和 修改 ,在 函数 /过 程 返回 时 被 撤销 。 栈 帧 包含 局 部 变量 函数 实 参 临 
时 值 (用 于 表达 式 计算 的 中 间 单 元 ) 等 数据 信息 以 及 必要 的 控制 信息 。 

先 通过 一 个 简单 的 例子 来 说 明 过 程 活动 记录 在 运行 栈 上 被 创建 的 过 程 。 首 先 ,图 9. 4(a) 
中 的 程序 从 函数 main 开始 执行 ,在 运行 栈 上 创建 main 的 活动 记录 ;其 次 ,从 函数 main 中 调 
用 函数 p, 在 运行 栈 上 创建 p 的 活动 记录 ;最 后 ,p 中 调用 gq, 又 从 q 中 再 次 调用 qo SiR, R 
数 q 被 第 二 次 激活 时 运行 栈 上 的 活动 记录 分 配 情况 如 图 9.4(b) 所 示 。 若 某 函 数 从 它 的 一 
次 执行 返回 时 ,相应 的 活动 记录 将 从 运行 栈 上 撤销 。 例 如 ,图 9.4 中 的 递归 函数 q 执行 完 正 
常 返回 后 的 时 刻 , 运 行 栈 上 将 只 包含 main A p 的 活动 记录 。 这 里 假定 栈 空间 的 增长 方向 是 
自 下 而 上 (不 同 于 图 9.1) ,如 不 特别 指明 ,本 章 后 续 部 分 也 这 样 假设 。 

如 图 9.5 所 示 ,活动 记录 中 的 数据 通常 是 使 用 寄存 器 偏 址 寻 址 方式 进行 访问 的 , 即 在 一 
个 基地 址 寄存 器 中 存放 着 活动 记录 的 首 地 址 ,在 访问 活动 记录 某 一 项 内 容 的 时 候 , 只 需要 使 
用 该 首 地 址 以 及 该 项 内 容 相 对 这 个 首 地址 的 偏 移 量 , 即 可 计算 出 要 访问 的 内 容 在 虚拟 内 存 
中 的 好 辑 地 址 。 


void p() { 
; a0: 4 的 活动 记录 
yoia al f q 的 活动 记录 
a0: 
) Pp 的 活动 记录 某 个 数据 对 象 的 地 址 = 
int main { 活动 记录 起 始 地 址 数据 信息 
PO: main 的 活动 记录 + 偏 移 量 (Offset) 
a SA 
(a) 程序 代码 (b) 运行 栈 中 的 过 程 活动 记录 ahe il alila 
图 9.4 活动 记录 在 运行 栈 上 的 分 配 图 9.5 活动 记录 中 数据 对 象 的 寻 址 
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图 9. 6 描述 了 一 个 典型 过 程 活动 记录 的 结构 ,其 中 的 数据 信息 包括 参数 区 、 局 部 数据 
区 ,动态 数据 (如 动态 数组 ) 区 、 临 时 数据 区 以 及 过 程 /函数 调用 所 需要 的 其 他 数据 信息 等 。 
FP 为 栈 帧 的 基地 值 寄存 器 ; TOP 为 栈 顶 指针 寄存 器 ,通常 指向 运行 栈 中 下 一 个 可 分 配 的 
单元 。FP 和 TOP 的 组 合 所 确定 的 区 域 即 为 当前 活动 记录 的 存储 区 。 控 制 信息 通常 包含 一 
些 联 系 单元 ,如 返回 地 址 、 静 态 链 及 动态 链 等 。 有 关 静 态 链 和 动态 链 的 内 容 参 见 9. 2. 2 节 。 
有 关 参 数 区 、 过 程 /函数 调用 以 及 参数 传递 方式 的 讨论 参见 9. 3 节 。 

下 面 来 看 有 关 过 程 活动 记录 的 两 个 小 例子 。 设 有 如 下 C 函数 : 


void p(int a) 
{ 
float b; 
float c[10]; 
b=c[a]; 
} 
上 -一 TOP( 栈 项 指针 寄存 器 ) 
临时 工作 单元 一 -一 Offet=26 
动态 数组 区 © 一 -一 Offet=6 
固定 大 小 的 局 部 数据 区 b 一 一 Offet=4 
过 程 实际 参数 a 一 一 Offet=3 
控制 信息 ~ 一 一 FP( 栈 帧 基地 址 寄存 器 ) 控制 信息 。 [= 一 Offset=0 
图 9.6 典型 的 过 程 活动 记录 结构 图 9.7 不 含 动态 数据 区 的 过 程 活动 记录 


图 9. 7 描述 该 函数 的 一 个 可 能 的 初始 活动 记录 ,其 中 的 数据 信息 依次 包括 实际 参数 
alint 类 型 对 象 占 1 个 单元 ) ,局 部 变量 b(float 类 型 对 象 占 2 个 单元 ) 以 及 数组 变量 c 的 各 个 
分 量 (每 个 分 量 各 占 2 个 单元 )。 假 设 控制 信息 占 3 个 单元 ,那么 数据 对 象 a 和 的 偏 移 量 
分 别 为 3,4,6。 数 组 c 的 第 iC0 志 i 过 9) 个 元 素 的 偏 移 量 为 6 十 2i1。 设 当前 栈 帧 指针 寄存 器 内 
容 为 $ FP, 则 栈 顶 指针 寄存 器 TOP 的 内 容 为 $ TOP 二 $ FP 十 26。 当 语句 b=c [a] 开始 执 
行 时 ,所 使 用 的 临时 数据 对 象 将 从 $TOP 开始 分 配 存 储 空间 。 

下 面 看 另外 一 个 例子 。 设 有 如 下 C 代码 片段 : 


þe— Offfset=30+2N 
static int N; d j}=— Offset=30 
void p(int a) e |}=—— Offset=28 
{ 指向 4 的 指针 上 一 Offset=27 
float bs 内 情 向 量 (N) e Offset=26 
float c[10]; c — Offset=6 
float dLN]; b H Offset=4 
float e; a e— Offset=3 
oat 控制 信息 [m Offset=0 


图 9.8 含 动态 数据 区 的 过 程 活动 记录 
其 中 ,d 被 声明 为 一 个 动态 数组 。 图 9. 8 描述 该 函数 


的 一 个 可 能 的 初始 活动 记录 ,其 中 的 数据 信息 依次 包括 : 实际 参数 a, 局 部 变量 5, 静态 数 


组 变量 c 的 各 个 分 量 ,动态 数组 d 的 内 情 向 量 和 起 始 位 置 指针 ,然后 是 局 部 变量 “。 对 于 
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动态 数组 4 ,编译 器 并 不 能 确定 将 需要 多 少 存储 空间 ,因此 初始 活动 记录 中 占用 了 2 个 单 
元 ,其 中 内 情 向 量 单元 用 于 存放 d 的 上 界 N , 它 的 值 将 在 运行 时 获得 ; 另 一 个 单元 存放 4 的 
起 始 位 置 指针 。 如 果 采 用 相对 $FP 的 偏 移 量 表示 d 的 起 始 位 置 ,那么 可 以 在 编译 时 确定 
d 的 起 始 偏 移 量 为 offset 二 30( 思 考 : 当 有 2 个 或 2 个 以 上 动态 数组 时 , 则 第 2 个 以 后 的 数 
组 将 不 能 静态 地 确定 起 始 位 置 )。 如 图 9. 8 所 示 ,数组 d IWS i OSI N—1) HICH NY Md 
量 为 30 十 2i。 设 当前 栈 桢 指针 寄存 器 内 容 为 $ FP, 则 在 为 数组 d 的 所 有 元 素 动态 分 配 空间 
后 , 栈 顶 指针 寄存 器 TOP 的 内 容 为 $ TOP= $ FP 十 30 十 2N。 


9.2.2 赃 套 过 程 定义 中 非 局 部 量 的 访问 


Pascal、ML 等 程序 设计 语言 允许 嵌 套 的 过 程 /函数 定义 ,这 种 情况 下 需要 解决 的 一 个 重 
要 问题 就 是 非 局 部 量 的 访问 。 图 9.9 是 一 个 类 Pascal 程序 的 过 程 定义 示例 ,其 中 过 程 P 的 
定义 内 部 含有 过 程 Q 的 定义 ,而 过 程 Q 的 定义 中 又 含有 过 程 R 的 定义 。 在 嵌 套 的 过 程 定 
义 中 ,内 层 定义 的 过 程 体内 可 以 访问 包含 它 的 外 层 过 程 中 的 数据 对 象 。 例 如 ,在 R 的 过 程 
体内 可 以 访问 过 程 Q,. 过程 P 以 及 主 程序 Main 所 定义 的 数据 对 象 。 更 确切 地 说 ,在 过 程 R 
被 激活 时 ,R 过 程 体内 部 可 以 访问 过 程 Q 最 新 一 次 被 调用 的 活动 记录 中 所 保存 的 局 部 数据 
对 象 ,同样 也 可 以 访问 过 程 P 最 新 一 次 被 调用 的 活动 记录 中 所 保存 的 局 部 数据 对 象 ,以 及 
可 以 访问 主 程序 main 的 活动 记录 中 所 保存 的 全 局 数据 对 象 (假设 全 局 数据 对 象 也 存放 在 栈 
区 ,此 时 main 的 活动 记录 总 存在 且 是 唯一 的 ) 。 这 种 对 于 不 在 当前 活动 记录 中 的 数据 对 象 
的 访问 称 为 非 局 部 量 的 访问 。 

在 C 语言 等 不 支持 骨 套 过 程 /函数 定义 的 程序 设计 语言 中 , 非 局 部 量 只 有 全 局 变量 , 通 
常情 况 下 可 以 分 配 在 静态 数据 区 ,所 以 本 书 不 考虑 这 些 语言 中 非 局 部 量 访问 的 问题 。 

对 于 非 局 部 量 的 访问 ,常见 的 实现 方法 有 两 种 : 

。 采用 Display 表 ( 人 参见 9. 2. 2. 1 节 )。 

。 为 活动 记录 增加 静态 链 域 (参见 9. 2. 2. 2 节 ) 。 


progran main(I,0); 
procedure P; 
procedure Q; 


9.2.2.1 Display 表 


Display KIL RA tik 5 Jes M i ah E 9 TH i R ES 17 BE 
上 的 起 始 位 置 ( 基 地 址 )。 若 当前 激活 过 程 的 层次 为 K( 主 


procedure R; 
begin 
ss 


程序 的 层次 设 为 0), 则 对 应 的 Display 表 含 及 十 1 个 音 aad 
元 ,依次 存放 着 现行 层 、 直 接 外 层 ……, 直 至 最 外 层 的 每 一 过 Ba 
程 的 最 新 活动 记录 的 基地 址 。 由 套 作用 域 规则 可 以 确保 每 iii R 
一 时 刻 Display 表 内 容 的 唯一 性 。Display 表 的 大 小 ( 即 最 end; /*P*/ 
多 内 套 的 层 数 ) 取 决 于 具体 实现 。 sees a 
例如 ,对 于 图 9. 9 中 的 程序 ,过 程 R 被 第 一 次 激活 后 运 wad peat 
行 栈 和 Display 寄存 器 D [i] 的 情况 如 图 9. 10 左边 所 示 ( 假 | begin 


设 无 其 他 调用 语句 )。 可 以 看 出 ,当前 D [1] 指 向 过 程 P 活 

动 记 录 的 基地 址 ,而 非 另 一 个 第 1 层 过 程 S 的 活动 记录 。 当 

WE R 被 第 二 次 激活 后 ,D [3] 则 指向 过 程 R 最 新 的 活动 
e 236 + 


Sis 
end. /*main*/ 


图 9.9 RaW BEX 


记录 ,如 图 9. 10 右边 所 示 。 


TOP 一 一 | 
TOP 一 一 | DB] 一 | 。 R 的 活动 记录 
DB] —= REZEK R 的 活动 记录 
D2]—=| Q 的 活动 记录 D[2] —— Q 的 活动 记录 
DI[1] 一 了 的 活动 记录 DI[1] 一 一 P 的 活动 记录 
S 的 活动 记录 S 的 活动 记录 
D[0] ——| main 的 活动 记录 D[O] ——| main 的 活动 记录 


9.10 Display 表 


在 过 程 被 调用 和 返回 时 ,需要 对 Display 表 进 行 维护 ,这 涉及 Display 寄存 器 D Cilh P 
存 和 恢复 。 一 种 极端 的 方法 是 把 整个 Display 表 存 入 活动 记录 。 若 过 程 为 第 nn 层 , 则 需要 
保存 D [0 一 D [nj]。 一 个 过 程 (处 于 第 层 ) 被 调用 时 ,从 调用 过 程 的 Display 表 中 自 下 向 
上 抄录 个 FP 值 ,再 加 上 本 层 的 FP 值 。 

例如 ,车 采用 这 种 方法 ,对 于 图 9. 9 中 的 程序 ,过 程 R 被 第 一 次 激活 后 R 活动 记录 和 
Q 活动 记录 中 Display 表 的 情况 如 图 9.11 左边 所 示 。 当 过 程 R 被 第 二 次 激活 后 ,过 程 民 的 
两 个 活动 记录 中 Display 表 的 情况 如 图 9. 11 右边 所 示 。 


TOP 一 一 | 
Top 一人 | R 的 活动 记录 
Rata Display # ZRS 
Display? 
isplay: s Riismaa EA 
are Display # 
pif 7 Q 的 活动 记录 一 ~、 D[3] L- |D 
J.) Display / | F T omame | 
DD] | | pay Da) J | bu 
put + P 的 活动 记录 om pl H 的 动 记录 CI pro 
pl S 的 活动 记录 oo plo | A S 的 活动 记录 人 
“Nmain 的 活动 记录 | 一 main 的 活动 记录 


图 9.11 Display 表 的 维护 (一 ) 


显然 ,上 述 方案 所 记录 的 信息 宛 余 度 较 大 。 可 以 采用 的 另 一 种 方法 是 只 在 活动 记录 中 
保存 一 个 Display 表 项 ,而 在 静态 存储 区 或 专用 寄存 器 中 维护 一 个 全 局 Display 表 。 如 果 一 
个 处 于 第 nn 层 的 过 程 被 调用 , 则 只 需要 在 该 过 程 的 活动 记录 中 保存 D [nj 先前 的 值 ， 如 果 
D [nj 先前 没有 定义 ,那么 用 ”代替 。 

例如 ,车 采用 第 二 种 方法 ,对 于 图 9. 9 中 的 程序 , 当 过 程 R 被 第 一 次 激活 后 ,全 局 
Display 表 以 及 各 过 程 的 活动 记录 中 所 保存 的 Display 表 项 内 容 如 图 9. 12 左边 所 示 。 当 过 
程 R 被 第 二 次 激活 后 ,全 局 Display 表 以 及 各 过 程 的 活动 记录 中 所 保存 的 Display 表 项 内 容 
如 图 9. 12 右边 所 示 。 

为 了 进一步 解释 后 一 种 方法 ,将 图 9. 9 中 的 程序 略 加 修改 ,在 RR 的 过 程 体 中 原来 调用 有 
之 处 现 改 为 调用 P, 如 图 9. 13 所 示 。 同 样 , 假 设 无 其 他 调用 语句 , 则 该 程序 的 过 程 调 用 序列 
为 Main,S,P,Q,R,P,Q,R,…。 若 采用 第 二 种 Display 表 维 护 方法 ,对 于 图 9. 13 中 的 程 
序 ,在 执行 头 两 轮 P,Q,R 调用 序列 时 ,全 局 Display 表 的 内 容 以 及 各 过 程 的 活动 记录 中 所 


= 237 > 


TOP —+| 
R 的 活动 记录 
Top —+| Saved D[3]: 
R 的 活动 记录 R 的 活动 记录 
Saved D[3]:_ Saved D[3]:_ La 
Q 的 活动 记录 Q 的 活动 记录 
Saved D[2]:_ D[3] A Saved D[2]:_ 
P 的 活动 记录 DPI P 的 活动 记录 
D[3] Saved D[1]: pti}! 4 Savea Df]: 
D[2] S 的 活动 记录 DIO] S 的 活动 记录 
Dill Saved DI |_| N Saved DIT |__| 
DIO J main 的 活动 记录 main 的 活动 记录 
中 I} Saved DIO]: Saved D[O]: 


9.12 Display 表 的 维护 (二 ) 


保存 的 Display 表 项 内 容 如 图 9. 13 右边 所 示 。 为 了 不 致 混淆 ,把 其 中 第 二 轮 调用 序列 表示 
为 P',Q',R'。 从 该 图 中 可 以 看 出 ,D [0] 总 是 对 应 主 程序 的 活动 记录 ; 在 第 一 次 调用 P 时 ， 
D [1 由 原来 指向 S 的 活动 记录 改 为 指向 P 的 活动 记录 ,而 在 P 的 活动 记录 中 记录 S 活动 
记录 的 基地 址 以 便 从 P 返回 时 恢复 原先 的 D [1] 值 ; 在 第 一 次 调用 Q AR HY. hF D [2] 
AD [3] 无 定义 ,所 以 它们 的 活动 记录 中 所 保存 的 Display 表 项 也 无 定义 ; 在 第 二 次 调用 过 
程 P 时 ,D [1] 的 活动 记录 改 为 指向 该 过 程 的 一 个 新 活动 记录 (P') ,而 将 原来 的 P 活动 记录 
基地 址 保存 于 P' 活 动 记录 的 Display 表 项 中 ; 第 二 次 调用 过 程 Q 入 时 ,情况 也 类 似 。 


progran main(I,0); 
procedure P; 
procedure Q; 
procedure R; 
begin 
end; /*R*/ 
begin 
和 
d; /*Q* 
O 4 calls P Q R PQR 
gpa 
end; /*P*/ DB] = - R R R R' 
procedure S; D[2] 一 Q Q Q Q Q 
begin 
ene DI1] P P P P P P 
end; /*S*/ DI0] main main main main main main 
begin 
wl ps 
end. /*main*/ saved Se ES ee UR 


图 9.13 Display 表 的 维护 示例 


9.2.2.2 静态 链 


Display 表 的 方法 要 用 到 多 个 存储 单元 或 多 个 寄存 器 ,但 有 时 并 不 情愿 这 样 做 。 一 种 可 
选 的 方法 是 采用 静态 链 (static link) ,也 称 访问 链 (access link) , 即 在 所 有 活动 记录 都 增加 一 
个 域 ,指向 定义 该 过 程 的 直接 外 过 程 ( 或 主 程序 ) 运 行 时 最 新 的 活动 记录 (的 基 址 )。 
”238。 


与 静态 链 对 应 的 另 一 个 概念 是 动态 链 (dynamic link) ,也 称 控制 链 (control link). 
过 程 返回 时 ,当前 活动 记录 要 被 撤销 ,为 回 卷 (unwind) 到 调用 过 程 的 活动 记录 (恢复 FP)， 
需要 在 被 调用 过 程 的 活动 记录 中 有 这 样 一 个 域 , 即 动态 链 , 指 向 该 调用 过 程 的 活动 记录 
(的 基 址 ) 。 

例如 ,对 于 图 9. 9 中 的 程序 , 当 过 程 R 被 第 一 次 激活 后 ,运行 栈 以 及 各 个 活动 记录 的 静 
态 链 和 动态 链 域 的 情况 如 图 9. 14 左边 所 示 ( 假 设 无 其 他 调用 语句 )。 又 如 ,对 于 图 9. 13 中 
的 程序 , 当 过 程 P 被 第 二 次 激活 后 ,运行 栈 以 及 各 个 活动 记录 的 静态 链 和 动态 链 域 的 情况 
如 图 9. 14 右边 所 示 o 


TOP 一 一 | 
Top—=] P : P 的 活动 记录 | 
R 的 活动 记录 态 态 O| ” R 的 活动 记录 | | 态 
i Q 的 活动 记录 = z Q 的 活动 记录 i 
链 = a 一 ” 
了 的 活动 记录 了 的 活动 记录 
S 的 活动 记录 S 的 活动 记录 
= 二 
main 的 活动 记录 main 的 活动 记录 


9.14 动态 链 与 静态 链 


采用 静态 链 比 采用 全 局 Display 表 的 方法 容易 实现 ,但 在 进行 非 局 部 量 访问 时 效率 要 
比 后 者 差 。 


9.2.3 ” 赃 套 程序 块 的 非 局 部 量 访问 


一 些 语言 (如 C 语言) 支持 髓 套 的 块 ,在 这 些 块 的 内 部 也 允许 声明 局 部 变量 ,同样 要 解 
决 依 髓 套 层 次 规则 进行 非 局 部 量 使 用 (访问 ) 的 问题 。 常 见 的 实现 方法 有 两 种 : 

。 将 每 个 块 看 作 内 髓 的 无 参 过 程 ,为 它 创建 一 个 新 的 活动 记录 , 称 为 块 级 活动 记录 。 
该 方法 的 代价 很 高 。 

。 由 于 每 个 块 中 变量 的 相对 位 置 在 编译 时 就 能 确定 下 来 ,因此 可 以 不 创建 块 级 活动 记 
录 , 仅 需要 借用 其 所 属 的 过 程 级 活动 记录 就 可 解决 问题 (参见 下 面 的 例子 ) 。 

例如 ,对 如 下 C 代码 片段 : 

int pO 

{ 


int A; 


{ 
int B,C; 


int D,E,Fs 


{ 
”239。 


int G; TOP —+| 
ye 存放 G 的 空间 
} fi, = i 
D. E.F k i 
针对 上 述 代 码 片 段 中 的 嵌 套 程序 块 的 非 局 部 量 -一 
PP 一 -| 存放 A 的 空间 


访问 ,可 以 采用 过 程 级 活动 记录 ,如 图 9. 15 所 示 。 从 
图 中 可 以 看 出 , 当 程序 运行 至 / * here * /处 时 ,存放 D 图 9.15 过 程 级 活动 记录 中 做 套 程序 
和 下 的 空间 重用 了 曾经 存放 避 和 C 的 空间 。 cecilia 


9.2.4 动态 作用 域 规则 和 静态 作用 域 规则 


多 数 情况 下 ,常见 的 语言 (如 C, Pascal 和 Java 等 ) 均 采用 所 谓 的 静态 作用 域 (static 
scope) 规 则 ,通过 观察 程序 本 身 就 可 以 确定 一 个 声明 的 作用 域 , 即 程序 某 处 所 使 用 名 字 的 声 
明之 处 是 可 以 静态 确定 的 。 即 使 一 些 面向 对 象 语言 (如 C++ ) 使 用 了 像 public、private 和 
protected 之 类 的 关键 字 , 但 对 于 超 类 中 成 员 名 字 的 访问 均 提 供 了 显 式 的 控制 机 制 。 静 态 作 
用 域 有 时 也 称 为 词法 作用 域 (lexical scope) 。 

另 一 种 情况 是 动态 作用 域 (dynamic scope) 规 则 , 即 只 有 在 程序 执行 时 才能 确定 程序 某 
处 所 使 用 名 字 的 声明 位 置 。 对 于 常用 语言 , 仅 在 特殊 情况 下 采用 动态 作用 域 ,如 C 语言 预 
处 理 程序 中 的 宏 展 开 (macro expansion) 和 面向 对 象 程序 中 确定 所 要 调用 的 方法 。 安 定义 
中 使 用 的 同一 变量 ,在 不 同上 下 文中 进行 宏 展开 后 可 能 对 应 着 不 同 的 变量 声明 。 一 个 
superclass 声明 的 变量 ,在 不 同 场合 会 代表 不 同 的 subclass 对 象 ,在 运行 时 才能 确定 ,同名 
方法 的 调用 可 能 对 应 不 同 class 中 声明 的 方法 。 

为 理解 动态 作用 域 规则 和 静态 作用 域 规则 的 差异 ,下 面 看 一 个 简单 的 例子 。 设 有 如 下 
Pascal 程序 片段 : 


var r: real 
procedure show; 
begin 
write(r: 5; 3) // 以 长 度 为 5, 小 数位 数 为 3 的 格式 显示 实 型 量 r 的 值 
end; 
procedure small; 
var r: real; 
begin 
r :一 0.125; show 
end; 
begin 
r :=0.25; 
show; small; writeln; 
show; small; writeln; 


end. 
车 采用 静态 作用 域 规则 ,无 论 在 哪个 上 下 文中 执行 ,过 程 show 中 的 变量 总 是 指 全 局 
声明 的 r, 因 此 执行 结果 是 
° 240。 


0.250 0.250 
0.250 0.250 


若 采用 动态 作用 域 规则 , 则 在 不 同 的 上 下 文中 执行 ,过 程 show 中 的 变量 r 会 被 认为 是 
最 近 的 调用 过 程 所 声明 的 r, 因 此 执行 结果 是 

0.250 0.125 

0.250 0.125 

由 此 例 可 以 看 出 ,针对 骨 套 过 程 中 非 局 部 量 的 使 用 , 若 遵循 静态 作用 域 规则 , 则 要 沿 着 
过 程 活动 记录 的 静态 链 (或 display 表 项 ) 查 找 最 近 一 个 过 程 中 所 声明 的 同名 变量 ; 车 遵循 
动态 作用 域 规则 , 则 要 沿 着 过 程 活动 记录 的 动态 链 查 找 最 近 一 个 过 程 中 所 声明 的 同名 变量 。 

在 不 特别 指明 的 场合 下 ,变量 的 名 字 在 使 用 时 均 遵 循 静态 作用 域 规则 。 


9.3 过 程 调 用 


图 9. 16 给 出 了 活动 记录 中 与 过 程 /函数 调用 相关 的 常见 信息 。 实 现 过 程 /函数 调用 的 控 
制 信息 中 必须 包含 “调用 程序 返回 地 址 ”信息 ， 


动 太 : 
woe | favicon 以 保证 当前 过 程 /函数 运行 结束 时 返 回 到 调用 
寄存 器 保存 区 ”过 程 (caller) 继 续 执行 。 其 他 的 控制 信息 包含 某 
过 程 实际 参数 些 必要 的 联系 单元 ,如 9. 2. 2 节 介 绍 的 动态 链 、 
调用 程序 返回 地 址 静态 链 和 display 表 等 。 实 现 过 程 /函数 调用 的 
其 他 控制 信息 活动 记录 起 始点 ”数据 信息 包含 “实际 参数 "“ 寄 存 器 保存 区 "等 。 
返回 值 ( 仅 适 于 函数 ) 在 初始 化 被 调用 过 程 (callee) 的 活动 记录 时 将 包 
图 9.16 活动 记录 中 与 过 程 /函数 调用 相关 的 信息 含 这 些 数据 单元 ,同时 也 包含 可 以 静态 确定 大 

小 的 局 部 数据 单元 。 


实现 过 程 调用 时 需要 调用 代码 序列 (calling sequence) 为 活动 记录 在 栈 中 分 配 空间 ,并 
在 相应 单元 中 填写 相应 的 信息 。 返 回 代码 序列 (return sequence) 则 与 之 呼应 , 它 恢复 机 器 
状态 (寄存 器 取 值 ) ,使 调用 过 程 在 调用 结束 后 从 返回 地 址 开始 继续 执行 。 很 自然 ,返回 代码 
序列 通常 分 配给 被 调用 过 程 来 完成 。 对 于 调用 代码 序列 ,通常 是 分 配给 被 调用 过 程 和 调用 
过 程 分 工 来 完成 。 这 种 分 工 没有 严格 的 界限 。 然 而 ,一 般 的 原则 是 期 望 把 调用 代码 序列 中 
尽 可 能 多 的 部 分 由 被 调用 过 程 来 完成 ,原因 是 调用 点 有 多 个 而 被 调用 过 程 只 有 一 个 , 若 分 给 
后 者 则 相应 代码 只 需 生 成 一 次 。 调 用 代码 序列 和 返回 代码 序列 如 何 分 工 取决 于 不 同系 统 平 
台 ( 体 系 结构 和 操作 系统 ) 的 调用 约定 (calling convention) ,是 相应 平台 ABI( Application 
Binary Interface) 的 重要 组 成 部 分 。 

“返回 值 ? 信 息 仅 适用 于 函数 调用 。 该 信息 可 以 放 在 调用 过 程 的 活动 记录 ,也 可 以 放 在 
被 调用 过 程 的 活动 记录 。 但 若是 后 者 ,通常 会 把 它 的 存放 位 置 尽 可 能 靠近 调用 过 程 的 活动 
记录 ,以 便 调用 过 程 可 以 在 自身 活动 记录 的 项 部 对 返回 值 进行 操作 。 

类 似 地 ,“ 过 程 实际 参数 区 ”可 以 放 在 被 调用 过 程 的 活动 记录 ,也 可 以 放 在 调用 过 程 的 活 
动 记 录 。 若 是 后 者 ,通常 会 把 它 的 存放 位 置 靠近 被 调用 过 程 的 活动 记录 ,以 便 被 调用 过 程 可 
以 在 自身 活动 记录 的 底部 对 参数 值 进 行 操作 。 

在 许多 平台 的 调用 约定 中 ,参数 和 返回 值 中 有 一 部 分 是 存放 在 特定 的 寄存 器 中 ,寄存 器 
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不 够 用 时 才 会 存放 在 活动 记录 中 。 
“寄存 器 保存 区 ”用 于 保存 过 程 /函数 执行 中 可 能 被 修改 的 寄存 器 值 。 依 据 不 同 的 调用 
约定 ,有 些 寄存 器 值 保存 在 被 调用 过 程 的 活动 记录 ,而 另 一 些 寄 存 器 值 则 保存 在 调用 过 程 的 
活动 记录 。 
一 般 情 况 下 ,一 个 典型 的 过 程 调用 和 返回 周期 中 需要 执行 三 段 代 码 。 前 两 段 是 调用 代 
码 序 列 , 分 别 由 调用 过 程 和 被 调用 过 程 分 担 执行 , 称 为 调用 起 始 阶段 (prologue); 第 三 段 是 
返回 代码 序列 ,由 被 调用 过 程 执行 , 称 为 调用 收尾 阶段 (epilogue) 。 
以 下 是 调用 起 始 阶段 (prologue) 需 要 完成 的 典型 工作 : 
(1) 参数 传递 。 一 些 参数 会 传 给 寄存 器 ,剩余 的 将 被 压 入 栈 中 (位 于 被 调用 程序 活动 记 
录 或 调用 程序 活动 记录 ) 。 
(2) 为 被 调用 过 程 的 活动 记录 分 配 栈 上 的 存储 空间 。 
(3) 保存 旧 栈 帧 基 址 (保存 旧 FP) , 即 动态 链 信 息 。 
(4) 保存 调用 过 程 的 返回 地 址 (保存 调用 指令 之 后 下 一 条 指令 的 地 址 )。 
(5) 保存 其 他 控制 信息 (如 静态 链 、display 表 等 ) 。 
(6) 保存 寄存 器 信息 。 通 常 可 以 分 为 由 调用 过 程 保存 的 寄存 器 (caller-saved register) 
和 被 调用 过 程 保存 的 寄存 器 (callee-saved register)。 后 者 最 好 用 来 保存 生存 期 长 的 值 ,而 
前 者 则 适合 用 于 保存 生存 期 短 的 值 (不 会 跨越 过 程 调用 )。 
(7) 建立 新 栈 帧 基 址 (设置 新 FP)。 
(8) 建立 新 栈 顶 (设置 新 TOP) 。 
(9) 转移 控制 ,启动 被 调用 过 程 的 执行 。 
以 下 是 被 调用 过 程 在 调用 收尾 阶段 (epilogue) 需 要 完成 的 典型 步 又: 
(1) 如 果 被 调用 过 程 是 函数 , 则 需要 返回 一 个 值 。 函 数 返 回 值 可 以 存 人 专门 的 寄存 器 ， 
也 可 以 存 人 栈 中 (通常 位 于 调用 程序 活动 记录 ) 。 
(2) 恢复 所 有 被 调用 过 程 保存 的 寄存 器 。 
(3) 弹出 被 调用 过 程 的 栈 帧 ,恢复 旧 栈 帧 ( 即 恢复 调用 时 的 FP 和 TOP)。 
(4) 将 控制 返回 给 调用 过 程 ( 恢 复 调用 时 保存 的 返回 地 址 至 指令 计数 器 ) 。 
最 后 ,由 调用 过 程 保 存 的 寄存 器 自然 是 由 调用 过 程 负责 恢复 。 
对 于 不 同 的 调用 约定 ,上 述 各 阶段 的 工作 及 其 每 一 阶段 工作 中 各 步骤 的 完成 者 (调用 过 
程 或 被 调用 过 程 ) 和 先后 次 序 会 有 一 些 差异 。 
在 实现 过 程 调用 时 ,参数 的 传递 方式 也 是 很 重要 的 环节 。 常 见 的 参数 传递 方式 有 : 
。 传 值 (call-by-value) 。 传 递 的 是 实际 参数 的 右 值 C(rvalue) 。 一 个 表达 式 的 右 值 代表 
该 表达 式 的 取 值 。 

© 传 地 址 (call-by-reference)。 传 递 的 是 实际 参数 的 左 值 (1l-value)。 一 个 表达 式 的 左 
值 代表 存放 该 表达 式 值 的 存储 单元 地 址 。 

考虑 下 列 Pascal 程序 段 : 


procedure swap(x,y:integer); 
var temp:integer; 
begin 
temp *=x3 
x= ys 
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y :一 temp 


end; 


若 采用 传 值 调用 ,调用 过 程 swap(a,b) 将 不 会 影响 a 和 b 的 值 ,其 效果 等 价 于 执行 下 
列 语句 序列 : 


xii 
y :一 b; 
temp *=x; 
X :一 y3 


y :一 temp 


在 实现 传 值 调用 时 ,形式 参数 当 作 过 程 的 局 部 数据 对 象 处 理 , 即 在 被 调 过 程 的 活动 记录 中 
开辟 了 形 参 的 存储 空间 ,这 些 存储 位 置 初始 时 用 以 存放 实际 参数 值 。 调 用 过 程 计算 实 参 的 值 ， 
将 其 放 于 对 应 的 存储 空间 。 被 调用 过 程 执行 时 ,就 像 使 用 局 部 变量 一 样 使 用 这 些 参数 单元 。 

若是 换 作 下 列 Pascal 程序 段 : 


procedure swap(var x,y: integer); 
var temp: integer; 
begin 
temp :=x; 
xt=ys 
y :=temp 


end; 


保留 字 var 表示 将 采用 传 地 址 调用 的 参数 传递 方式 。 此 时 ,调用 过 程 swap(a,b) 将 交 
tha Alb 的 值 。 

在 实现 传 地 址 调用 时 ,将 把 实际 参数 的 地 址 传递 给 相应 的 形 参 , 即 调用 过 程 把 一 个 指向 
实 参 的 存储 地 址 的 指针 传递 给 被 调用 过 程 相应 的 形 参 : 若 实 参 是 一 个 名 字 ,或 具有 左 值 的 
表达 式 , 则 传递 左 值 ; 若 实 参 是 无 左 值 的 表达 式 , 则 计算 该 表达 式 的 值 , 放 入 一 个 存储 单元 ， 
然后 将 此 存储 单元 地 址 放 于 对 应 形 参 的 存储 空间 。 同 样 , 被 调用 过 程 执行 时 ,就 像 使 用 局 部 
变量 一 样 使 用 这 些 参数 单元 ,但 使 用 的 是 左 值 。 

对 于 其 他 的 参数 传递 方式 ,如 传 名 字 (call-by-name) ,以 及 参数 传递 的 其 他 内 容 ( 如 过 程 
作为 参数 ) ,本 书 不 作 进一步 讨论 .有 兴趣 的 读者 可 参阅 [1 一 4 等 教材 。 


9.4 PL/0 编译 程序 的 运行 时 存储 组 织 


PL/0 编译 程序 生成 的 目标 代码 是 类 P-code 代码 , 它 在 类 P-code 虚拟 机 上 运行 。 
类 P-code 虚 拟 机 的 基本 结构 可 参见 1. 4. 5 节 以 及 附录 A 中 interpret() 的 实现 代码 。 

类 P-code 虚拟 机 仅 有 一 些 专用 寄存 器 ,程序 (类 P-code 代码 ) 运 行 期 间 的 数据 存储 和 
运算 都 在 运行 栈 s 上 实现 。 这 样 ,运行 时 只 有 栈 式 动态 存储 分 配方 式 。 

运行 栈 中 的 存储 单位 是 过 程 活动 记录 .其 结构 见 9. 4. 1 节 的 介绍 。 过 程 活 动 记录 的 创 
建 和 撤销 与 过 程 调用 和 返回 时 的 操作 相对 应 ,将 在 9. 4. 2 节 介绍 。 几 种 专用 寄存 器 的 作用 
可 以 从 9.4.1 节 和 9.4.2 节 相 关内 容 的 介绍 中 体现 出 来 。 
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9.4.1 PL/0 程序 运行 栈 中 的 过 程 活动 记录 


PL/0 程序 运行 时 ,每 一 次 过 程 调用 都 将 在 运行 栈 增加 一 个 过 程 活动 记录 ,其 结构 如 
图 9. 17 所 示 。 当 前 活动 记录 的 起 始 单元 由 基 址 寄存 器 2 指 


出 ,结束 单元 是 术 顶 寄存 器 * 所 指 单元 的 前 一 个 单元 。 SE 
PL/0 的 过 程 活动 记录 中 的 头 3 个 单元 是 固定 的 联系 aie 
信息 : 返回 地 址 RA 
+ SE SL: 指向 定义 该 过 程 的 直接 外 过 程 最 近 一 ET 
次 运行 时 的 活动 记录 的 起 始 单元 。 静 态 链 主 要 用 于 | ETAR 


解决 对 非 局 部 量 的 引用 ( 存 取 ) 问 题 ,也 称 为 存 取 链 。 图 9 17 PL/o 的 过 程 活动 记录 
参见 9.2.2 节 。 
动态 链 DL: 指向 调用 该 过 程 前 正在 运行 过 程 ( 即 调用 过 程 ) 的 活动 记录 的 起 始 单 
元 。 在 过 程 返回 时 当前 活动 记录 要 被 撤销 ,此 时 需要 动态 链 信息 来 修改 基 址 寄存 器 
b 的 内 容 。 动 态 链 也 称 为 控制 链 。 参 见 9. 2. 2 节 。 
返回 地 址 RA; 记录 该 过 程 返回 后 应 当 执行 的 下 一 条 指令 地 址 , 即 调用 该 过 程 的 指 
令 执行 时 指令 地 址 寄存 器 p 的 内 容 加 1 。 

在 PL/0 过 程 活动 记录 中 ,3 个 联系 单元 之 后 的 部 分 先是 用 来 分 配 局 部 变量 的 单元 , 它 
们 是 按照 声明 的 次 序 存放 的 ,然后 是 用 于 保存 计算 结果 的 临时 单元 。 由 于 PL/0 程序 中 只 
允许 声明 静态 的 整 型 变量 ,所 以 在 初始 化 时 ,过 程 活动 记录 的 大 小 被 置 为 size 二 3 十 m(m 为 
过 程 中 局 部 变量 的 数目 ) ,这 里 假定 整 型 数值 占 一 个 存储 单元 。 

随 着 过 程 的 执行 ,活动 记录 中 的 临时 单元 部 分 将 随 之 变化 。 过 程 执行 期 间 , 栈 顶 寄存 
器 上 总 是 指向 运行 栈 中 下 一 个 可 用 的 存储 单元 。 当 过 程 执行 结束 时 ,当前 活动 记录 将 被 撤 
销 , 栈 顶 寄存 器 : 将 被 修改 为 基 址 寄存 器 2 的 当前 内 容 , 而 后 者 则 被 修改 为 当前 活动 记录 中 
动态 链 DL 的 内 容 。 

在 PL/0 程序 的 任何 一 点 可 以 调用 当前 开 作用 域 中 的 任何 一 个 过 程 ( 即 这 些 过 程 的 标 
识 符 出 现在 当前 的 符号 表 中 ) ,并 且 可 以 任意 嵌 套 和 递归 。 例 如 ,对 于 如 下 PL/0 程序 片段 ， 
所 有 call 语句 的 出 现 位 置 都 是 合法 的 (假设 被 省 略 的 部 分 不 含 call 语句 ) : 


procedure P; 
procedure Q; 
procedure R; 
begin 
oe; /* here * / 
seese; call P; 
end; 
begin 
-p call Ry me 
end; 
begin 
cers call Qs seorg 
end; 
procedure S; 
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begin 
PS 
end; 
begin 
esep call Sp =e 
end. / 


若 在 过 程 S 的 过 程 体 内 调用 过 程 Q 和 R 都 是 不 合法 的 ,这 时 会 报告 语义 错误 。 

如 果 对 应 到 运行 栈 ,每 一 次 过 程 调用 将 创建 一 个 新 的 活动 记录 ,同一 过 程 被 直接 或 间接 
递归 调用 时 将 会 对 应 不 同 的 活动 记录 ,会 同时 出 现在 运行 栈 上 。 每 一 次 过 程 返回 将 撤销 当 
前 的 活动 记录 ,但 不 会 影响 到 先前 创建 的 该 过 程 的 活动 记录 。 

当 以 上 程序 段 首次 执行 到 / * here * /时 ,运行 栈 存在 的 过 程 活动 记录 情况 如 图 9. 18(a) 
所 示 ; 当 第 二 次 执行 到 / * here * /时 ,运行 栈 存在 的 过 程 活动 记录 情况 如 图 9. 18(b) 所 示 。 
同时 ,图 9. 18 也 示意 了 各 活动 记录 中 动态 链 和 静态 链 的 情况 。 


TOP—~ 2 二 一 
R 的 活动 记录 | i 
[1 
! Q 的 活动 记录 i 
一 
o P 的 活动 记录 | 1! 
oo| R 的 活动 记录 | ti | R 的 活动 记录 [tay 
| _ | “的 活动 记录 本 | a | | omame | ! 区 
eT) Pg 活动 记录 | 
态 tock E =+ Ls- 
链 | “| s 的 活动 记录 LEA | | “| 的 活动 记录 it 
| _| main 的 活动 记录 | | | 站 | main 的 活动 记录 | 
(a) (b) 


图 9.18 PL/0 程序 运行 栈 的 变化 


9.4.2 实现 过 程 调用 和 返回 的 类 P-code 指令 


在 类 P-code 指令 中 ,与 过 程 调用 和 返回 相关 的 有 3 条 。 下 面 简要 介绍 这 些 指令 ,这 也 
有 助 于 读者 进一步 理解 活动 记录 的 创建 和 撤销 过 程 。 

(1) 指令 CAL L A。 这 是 调用 过 程 (caller) 执 行 的 指令 ,其 含义 是 调用 地 址 为 A 的 过 
程 ,而 调用 过 程 体 所 在 的 层次 与 被 调用 过 程 标识 符 的 层次 之 差 为 L。 指 令 执 行 前 后 运行 栈 
的 状态 ,以 及 相关 寄存 器 的 变化 情况 如 图 9. 19 所 示 。 执 行 后 , 基 址 寄存 器 65 的 内 容 修改 为 
执行 前 栈 顶 寄存 器 的 内 容 1'; 栈 顶 寄存 器 1 的 内 容 不 发 生变 化 , 仍 为 ; 指令 地 址 寄存 器 p 
的 内 容 修改 为 A。 运 行 栈 顶部 新 增 3 个 联系 单元 ,RA 的 内 容 置 为 指令 地 址 寄存 器 执行 前 
的 内 容 p' 加 1; DL 的 内 容 置 为 执行 前 基 址 寄存 器 的 内 容 必 ; SL 的 内 容 置 为 由 调用 过 程 活 
动 记录 中 静态 链 的 内 容 SL 开始 向 前 工 个 层 的 过 程 活动 记录 基 址 ,这 一 操作 的 解释 实现 可 
参考 附录 A 中 的 函数 int base(int lint * s.int b). 

(2) 指令 INT 0 A。 每 个 过 程 目标 程序 的 入 口 都 有 这 样 一 条 指令 ,用 以 在 栈 顶 开辟 
A 个 存储 单元 ,服务 于 被 调用 的 过 程 。 生 成 这 条 指令 时 ,A 的 值 取 自 符号 表 中 调用 过 程 标识 
符 所 对 应 的 记录 , 它 等 于 该 过 程 的 局 部 变量 数 加 3( 对 应 于 3 个 联系 单元 )。 指 令 执行 前 后 
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RA=p'+1 
DL=b' 置 SL 为 
=r — = SL' 向 

— on 前 ! 个 层 
的 基 址 
i 置 p 为 4 

RA’ > RA’ 

DL’ DL’ 

b'— SL’ SL’ 


图 9.19 指令 CALLA 执行 前 后 示意 


行 栈 的 状态 以 及 相关 寄存 器 的 变化 情况 如 图 9. 20 所 示 。 执 行 后 , 栈 顶 寄存 器 1 的 内 容 为 
行 前 


运 
执行 前 栈 项 寄存 器 的 内 容 : 加 上 A。 


t=t'+A 一 一 | 


: 4-3 个 单元 
RA 返回 地 址 
—> DL 动态 链 
r 一 一 | SL 静态 链 


图 9.20 指令 INTO A 执行 前 后 示意 


(3) 指令 OPR 0 0。 每 个 过 程 目标 代码 的 出 口 处 都 有 这 样 一 条 指令 ,用 以 结束 过 程 的 
执行 ,返回 调用 过 程 ,并 从 运行 栈 撤销 当前 过 程 的 活动 记录 。 指 令 执 行 前 后 运行 栈 的 状态 以 
及 相关 寄存 器 的 变化 情况 如 图 9. 21 所 示 。 执 行 后 , 基 址 寄存 器 b 的 内 容 修改 为 执行 前 栈 顶 
过 程 活动 记录 中 的 动态 链 DL; 栈 顶 寄存 器 t 的 内 容 修改 为 执行 前 栈 顶 过 程 活动 记录 的 基 
HE b'; 指令 地 址 寄存 器 p 的 内 容 修 改 为 执行 前 栈 项 过 程 活动 记录 中 的 返回 地 址 值 RA’. h 
于 指令 执行 后 寄存 器 5 和 1 的 内 容 已 改变 ,所 以 执行 前 运行 栈 顶 部 的 过 程 活动 记录 自然 被 
撤销 。 


j 
置 指令 地 址 
RA 寄存 器 p 为 
RA’ 

DL’ 

| SL’ 1 一 一 | eb 
RA => RA 
DL DL 
SL be SL b=DL' 


图 9.21 指令 OPR 0 0 执行 前 后 示意 
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9.5 面向 对 象 语言 存储 分 配 策略 


面向 对 象 编程 语言 已 经 成 为 当今 主要 的 程序 设计 语言 。 在 理解 面向 对 象 语言 的 实现 机 
制 时 ,对 象 的 运行 时 存储 组 织 是 比较 关键 的 环节 。 本 节 讨 论 与 此 相关 的 几 个 问题 。 


9.5.1 类 和 对 象 的 角色 


面向 对 象 语言 中 ,与 存储 组 织 关 系 密切 的 概念 是 类 和 对 象 。 首 先 , 需 要 对 类 和 对 象 在 面 
向 对 象 程序 中 所 扮演 的 角色 有 很 好 的 理解 : 
。 类 扮演 的 角色 是 程序 的 静态 定义 。 类 是 一 组 运行 时 对 象 的 共同 性 质 的 静态 描述 。 
类 声明 中 包含 两 类 特征 (feature) 成 员 : 属性 (attribute) 和 例 程 (routine) ,或 称 为 实 
例 变 量 (instance variable) 和 方法 (method) 。 
。 对 象 扮演 的 角色 是 程序 运行 时 的 动态 结构 。 每 个 对 象 都 必定 是 某 个 类 的 一 个 实例 
(instance) ,而 针对 一 个 类 可 以 创建 许多 个 对 象 。 
除 此 之 外 ,还 必须 熟知 面向 对 象 机 制 的 主要 特点 ,如 封装 (encapsulation)、 继 承 
(inheritance) ,多 态 (polymorphism) , W $ (overloading) Æ z) 4 4% 4E (dynamic binding) 等 。 关 于 
这 些 内 容 , 在 面向 对 象 编程 或 面向 对 象 软件 开发 方法 等 相关 的 课程 中 已 经 有 相当 多 的 介绍 。 


9.5.2 面向 对 象 程序 运行 时 的 特征 


进一步 ,还 需要 充分 理解 面向 对 象 程序 运行 时 的 基本 特征 : 

。 对 象 是 类 的 一 个 实例 ,是 系统 动态 运行 时 一 个 物理 结构 的 模块 ,是 按 需要 创建 而 不 
是 预先 分 配 的 。 对 象 是 在 类 实例 化 过 程 中 , 巾 类 的 属性 定义 所 确定 的 一 组 域 动态 地 
组 成 ,每 个 域 对 应 类 中 的 一 个 属性 。 

。 执行 一 个 面向 对 象 程序 就 是 创建 系统 根 类 (root class) 的 一 个 实例 ,并 调用 该 实例 的 
创建 过 程 。 创 建 根 对 象 相当 于 通常 程序 启动 main 过 程 /函数 ,在 非 纯 面 向 对 象 方式 
下 ,通常 也 采用 启动 main 过 程 /函数 的 方式 创建 根 对 象 。 

。 创建 对 象 的 过 程 实现 该 对 象 初始 化 ; 对 于 根 类 而 言 ,创建 其 对 象 即 执行 该 系统 。 
图 9. 22 描 绘 了 创建 根 对 象 时 的 存储 结构 。 运 行 根 对 象 构造 例 程 时 ,在 堆 区 为 根 对 
象 申请 空间 并 创建 根 对 象 , 同 时 在 栈 区 保存 引用 根 对 象 的 存储 单元 。 

对 象 例 程 的 运行 一 般 具 有 如 下 特征 : 

。 每 个 例 程 都 必定 是 某 个 类 的 成 员 , 且 每 个 例 程 都 只 能 把 计算 施加 在 其 所 属 类 所 创建 
的 对 象 上 。 因 而 在 一 个 例 程 执行 前 ,首先 要 求 它 所 施加 计算 的 对 象 已 经 存在 ,否则 
要 求 先 创建 该 对 象 。 

。 一 个 例 程 执行 时 ,其 参数 除 实 参 外 ,还 用 到 它 所 施加 计算 的 对 象 ,它们 与 该 例 程 的 局 
部 量 及 返回 值 一 起 组 成 一 个 该 例 程 的 工作 区 (在 栈 区 )。 参 见 9. 5.4 节 。 

。 例 程 工作 区 中 的 局 部 量 若是 较为 复杂 的 数据 结构 , 则 在 工作 区 中 存放 对 该 复杂 数据 
结构 的 一 个 引用 ,并 在 堆 区 创建 一 个 该 复杂 数据 结构 的 对 象 。 
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根 对 象 


根 对 象 构造 4 | 引用 根 对 象 
例 程 的 工作 区 


栈 式 存储 区 堆 式 存储 区 
图 9. 22 创建 根 对 象 时 的 存储 结构 


9.5.3 ”对象 的 存储 组 织 


关于 对 象 的 存储 组 织 ,一 种 最 容易 想到 的 设计 方法 可 以 是 : 初始 化 代码 将 所 有 当前 的 
继承 特征 (属性 和 例 程 ) 直 接地 复制 到 对 象 存储 区 中 (将 例 程 当 作 代码 指针 )。 但 这 样 做 的 后 
果 是 空间 浪费 相当 大 ,实际 上 是 一 种 极端 的 方法 。 

另 一 种 方法 是 : 在 对 象 存储 区 不 保存 任何 继承 而 来 的 例 程 ,而 是 在 执行 时 将 类 结构 的 一 
个 完整 的 描述 保存 在 每 个 类 的 存储 中 ,由 超 类 指针 维护 继承 性 (形成 所 谓 的 继承 图 )。 每 个 对 
象 保存 一 个 指向 其 所 属 类 的 指针 ,作为 一 个 附加 的 域 和 它 的 属性 变量 放 在 一 起 ,通过 这 个 类 就 
可 找到 所 有 (局 部 和 继承 的 ) 例 程 。 这 种 方法 只 记录 一 次 例 程 指针 (在 类 结构 中 ), 且 对 于 每 个 
对 象 并 不 将 其 复制 到 存储 器 中 。 然 而 ,其 缺点 在 于 : 虽然 属性 变量 具有 可 预测 的 偏 移 量 (如 在 
标准 环境 中 的 局 部 变量 一 样 ) ,但 例 程 却 没有 ,它们 必须 通过 带 有 查询 功能 的 符号 表 结构 中 的 
名 字 来 维护 。 因 为 类 结构 是 可 以 在 执行 中 改变 的 ,所 以 这 是 对 于 诸如 Smalltalk 等 强 动 态 性 语 
言 的 合理 的 结构 。 它 实际 上 是 另 一 种 极端 的 方法 ,虽然 节省 了 对 象 的 存储 空间 ,但 增加 了 类 层 
次 (符号 表 ) 结 构 的 维护 , 访 存 次 数 增多 , 故 运行 效率 会 受到 很 大 影响 。 

下 面 介绍 一 种 折 中 的 方案 : 计算 出 每 个 类 的 可 用 例 程 的 代码 指针 列表 ( 称 为 例 程 索引 
表 , 如 C++ 的 Vtable, 简 称 虚 表 )。 这 一 方法 的 优点 在 于 : 可 做 出 安排 以 使 每 个 例 程 都 有 一 
个 可 预测 的 偏 移 量 , 而 且 也 不 再 需要 用 一 系列 表 查 询 遍 历 类 的 层次 结构 。 这 样 , 每 个 对 象 不 
仅 包括 属性 变量 ,还 包括 一 个 相应 的 例 程 索引 表 的 指针 (不 是 类 结构 的 指针 ) 。 

设 有 如 下 类 和 对 象 声 明 的 片段 : 


class A{int x; void f O {+ H 
class B extends A{void gO {+++ }} 


class C entends B{ void gO {+++ H 

class D extends C{bool y; void f O {+++ H 
class A a; 

class B b; 

class C c; 


class D dl ,d2; 
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这 里 ,class A 的 声明 中 含 一 个 属性 变量 x 和 一 个 例 程 f; class B 的 声明 中 含 一 个 例 程 
g: 同 时 继承 class A 所 声明 的 属性 变量 x 和 例 程 f; class C 的 声明 中 含 一 个 例 程 g( 重 载 了 
class B 中 声明 的 例 程 g) ,同时 继承 其 祖先 类 中 所 声明 的 属性 变量 x 和 例 程 f; 类 似 地 ,class 
DD 声明 了 属性 变量 y, 重 载 了 例 程 f, 继 承 了 (class A 声明 的 ) 属 性 变量 x 和 (class C 声明 的 ) 
例 程 g。 该 代码 片段 声明 了 5 个 由 类 声明 的 变量 : a, 类 型 为 class A; b, 类 型 为 class B; 
c, 类 型 为 class C;dl 和 d2 ,类 型 为 class D。 变 量 a 初始 化 后 (如 在 随后 的 例子 中 采用 表达 
式 new(A) 来 初始 化 一 个 类 A 的 对 象 ) 创 建 对 象 a, 它 将 占据 独立 的 内 存 空间 。 类 似 地 ,有 
对 象 b、 对 象 c、 对 象 dl 和 对 象 d2 。 

针对 以 上 所 声明 的 类 和 对 象 ,图 9. 23 给 出 了 采用 这 种 折 中 方法 的 对 象 存储 示例 。 

从 图 9. 23 中 可 以 看 出 ,每 一 个 对 象 都 对 应 着 一 个 记录 这 个 对 象 状 态 的 内 存 块 ( 存 放 于 
WEK) ,其 中 包括 了 这 个 对 象 所 属 类 的 例 程 索引 表 指 针 ( 位 于 内 存 块 开始 的 位 置 ) 和 所 有 用 于 
说 明 这 个 对 象 状 态 的 属性 变量 。 属 性 变量 的 排列 顺序 是 :“ 辈 分 ? 越 高 的 属性 变量 越 靠 前 。 
具体 到 对 象 dl 和 d2 ,属性 变量 y 是 这 些 对 象 的 所 属 类 C 中 声明 的 ,而 属性 变量 x 是 C 继承 
父辈 类 的 ,所 以 在 dl 和 d2 的 存储 区 中 ,属性 变量 x 的 存储 位 置 排 在 属性 变量 y 的 存储 位 置 
之 前 。 

根据 这 一 方法 ,每 个 类 都 对 应 一 个 例 程 索引 表 。 例 程 索 引 表 的 结构 类 似 于 C++ 中 的 虚 
表 。 如 图 9. 23 所 示 , 类 A 的 例 程 索引 表 包 含 指向 class A 中 声明 的 例 程 工 的 指针 A_f; 类 也 
的 例 程 索引 表 包 含 指向 class A 所 声明 的 例 程 f 的 指针 A_f, 以 及 指向 class B 中 声明 的 例 程 
g 的 指针 Bes 类 C 的 例 程 索引 表 包 含 指向 class A 所 声明 的 例 程 f 的 指针 A_f, 以 及 指向 
class C 中 声明 的 例 程 g 的 指针 C_g; 最 后 ,类 DD 的 例 程 索引 表 包 含 指向 class D 所 声明 的 例 
程 f 的 指针 D_f, 以 及 指向 class C 中 声明 的 例 程 g 的 指针 C_g。 值 得 注意 的 是 ,在 例 程 索引 
表 中 ,安排 继承 而 来 的 例 程 靠 前 排列 ,辈分 ? 越 高 的 例 程 越 靠 前 (如 在 类 B 和 类 C 的 例 程 索 
引 表 中 ,A_f 排列 靠 前 ) ,但 重 载 例 程 的 位 置 仍然 保持 被 重 载 例 程 的 位 置 (如 类 D 的 例 程 索引 
表 中 ,D_{ 排 在 C_g 之 前 ) 。 

值得 注意 的 是 ,有 些 面向 对 象 语言 允许 将 例 程 声明 为 静态 的 。 由 于 静态 例 程 可 以 像 普 
通 函 数 那样 直接 调用 ,不 需要 动态 绑 定 .所 以 例 程 索引 表 中 不 包含 静态 例 程 的 指针 。 


tese. we 对 象 b ate 对 象 dl RELH 
x x m = 
2 y 
f 类 B 类 C 
i Afloat | === pr Pp 
表 Beg Ce aa 


图 9. 23 对象 存储 示例 


9.5.4 例 程 的 动态 绑 定 


首先 了 解 一 下 针对 面向 对 象 语言 中 this 关键 字 的 通常 处 理 方法 ,这 有 助 于 理解 例 程 的 
动态 绑 定 。 
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在 通常 的 面向 对 象 语言 中 ,在 例 程 内 部 可 以 使 用 this 关键 字 来 获得 对 当前 对 象 的 引 
用 ,同时 在 例 程 内 部 对 属性 变量 或 者 例 程 的 访问 实际 上 都 隐 含 着 对 this 的 访问 。 例 如 , 若 
在 名 为 writeName 例 程 内 使 用 了 this 关键 字 , 则 调用 who. writeName() 的 时 候 this 所 引用 
的 对 象 即 为 变量 who 所 引用 的 对 象 。 同 样 ,如 果 是 调用 you. writeName(), 则 writeName 
里 面 的 this 将 引用 you 所 指 的 对 象 。 实 现 这 一 特征 的 一 种 方法 是 把 who 或 者 you 作为 
writeName 的 一 个 实际 参数 在 调用 writeName 的 时 候 传 进去 ,这 样 就 可 以 把 对 this 的 引用 
全 部 转化 为 对 这 个 参数 的 引用 。 这 样 ,调用 who. writeName() 实 际 上 相当 于 调用 
writeName( who) 。 

这 种 技术 可 以 推广 至 任何 情形 下 的 例 程 动态 绑 定 的 实现 , 即 例 程 在 实际 运行 时 所 绑 定 
的 对 象 是 作为 参数 动态 告诉 它 的 。 

下 面 是 一 个 例子 。 设 有 某 个 简单 的 单 继承 面向 对 象 语言 的 如 下 代码 片段 : 


string day; 
class Fruit 
{ 
int price; 
string name; 
void init(int p,string s){price=p; name=s;} 
void print() { 
print("On ",day,", the price of ",name, " is ",price,"\n"); 
} 
} 
class Apple extends Fruit 
{ 
string color; 
void setcolor(string c) {color=c; } 
void print( { 
Print("On ",day,", the price of ",color, """,name," is ", price,"\n"); 
} 
void foo() 
class Apple a; 
a=New (Apple); 
a. setcolor("red") 
a. init(100,"apple") ; 
day="Tuesday"; 
a. print); 


} 
当 上 述 程序 执行 语句 a. init(100,"apple") Ht ,实际 上 是 调用 Fruit 类 中 声明 的 init 例 程 
的 代码 。 换 句 话 说 , 例 程 调用 init(100,"apple") 动 态 绑 定 到 变量 a 所 指示 的 对 象 , 即 一 个 
Apple 对 象 ,如 图 9. 24 所 示 。 此 时 ,a 作为 实际 参数 传 给 this, 后 者 是 调用 init (100, 
"apple") 时 的 隐 含 的 参数 。 
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Apple 类 的 例 程 索 引 表 


临时 变量 ee | eR A 
局 部 变量 Apple.setcolor — -—= Apple.setcolor 代 码 入 口 
控制 链 5 
返回 地 址 
this siz 
int p Le 一 个 Apple 对 象 string day 
string s vtable 一 | "apple" 
int price (100) j | "red" 
string name — "Tuesday" 
void init 活 动 记录 string color Pe 


图 9.24 例 程 的 动态 绑 定 


这 个 面向 对 象 程序 的 例子 类 似 于 第 11 章 介 绍 的 Decaf 程序 ,主要 差别 是 后 者 不 允许 独 
立定 义 函 数 ( 即 函数 只 能 作为 某 个 类 中 的 方法 来 定义 )。 


9.5.5 其 他 话题 


关于 面向 对 象 语言 的 实现 机 制 还 有 许多 有 趣 的 话题 ,限于 篇 幅 , 本 书 不 能 一 一 讨论 ,例如 : 

。 类 成 员 测 试 (testing class membership)。 类 似 于 Java 的 instanceof 运算 。 在 第 11 
章 介绍 的 课程 设计 可 选 框架 之 一 (Decaf 编译 器 框架 ) 中 ,会 涉及 这 一 语言 特征 的 实 
现 ,参见 11.4 节 。 

。 对 象 的 创建 和 撤销 。 如 对 象 的 构造 和 析 构 .垃圾 回收 等 内 容 。 

。 对 象 的 操作 。 如 对 象 的 赋值 .克隆 比较、 持久 存储 等 内 容 。 

。 多 继承 性 。 

。 例外 处 理 机 制 。 


练 J 


1. 若 按照 某 种 运行 时 组 织 方 式 , 如 下 函数 p 被 激活 时 的 过 程 活动 记录 如 图 9. 25 所 示 。 


其 中 4 是 动态 数组 。 |=— Offset=30+2N 
static int N; d =— Offset=30 
void plinta) { e | 王 一 Offset=28 

float b; 指向 4 的 指针 ”|= 一 Offset=27 

float c[10]; d 的 上 界 (N) |= 一 Offset=26 

float dLN]; | 。 Homes 

float es b —— Offset=4 

ae a [— Offset=3 
} 控制 信息 。 | 一 Offset=0 
试 指出 函数 p 中 访问 d [ 门 (0 二 i 二 N) 时 相对 于 活动 图 9.25 
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记录 基 址 的 Offset 值 如 何 计算 ? 若 将 数组 c Ald 的 声明 次 序 颠倒 , 则 4 [让 (0 入 ;过 N) 又 如 
何 计算 ? (对 于 后 一 问题 可 选 多 种 不 同 的 运行 时 组 织 方式 ,回答 可 多 样 ,但 需要 作 相 应 的 
解释 。) 

2. 图 9.26(a) 是 PL/0 语言 的 一 段 代码 。 过 程 活动 记录 中 的 控制 信息 包括 静态 链 SL、 
动态 链 DL 以 及 返回 地 址 RA。 程 序 的 执行 中 对 于 非 局 部 量 的 使 用 遵循 静态 作用 域 规则 。 
图 中 的 PL/0 程序 执行 到 过 程 p 被 第 二 次 激活 时 ,运行 栈 的 当前 状态 如 图 9. 26(b) 所 示 ( 栈 
顶 指向 单元 26) ,其 中 变量 的 名 字 用 于 代表 相应 的 内 容 。 试 补 齐 该 运行 状态 下 单元 18、19、 
21,22 及 23 中 的 内 容 。 


25 x 
24 2 RA 
23 DL 
22 SL 
21 
20 ? RA 
19 DL 
18 SL 
(1) var a,b; 
(2) procedure p; 17 a 
(3) var x; 16 x 
(4) procedure r; 
(5) var x, a; 15 ? RA 
(6) begin 14 9 DL 
(7) a:=3; 
(8) it a>b then call q; 13 9 SL 
…/* 仅 含 符号 x*/ 12 x 
end 
begin 11 2 RA 
call r; 10 5 DL 
“…/* 仅 含 符号 x*/ 9 a 
end; 
procedure q; 8 x 
var x; 7 5 RA 
. begin = 
(L) if a<b then call p; 6 0 DL 
ETRE / » a i 
end, 
begin 4 b 
a:=1 3 a 
b:=2; a 
call q 2 ? RA 
i 1 0 DL 
end. 0 0 SL 
多 代码 (b) 运行 栈 


9. 26 


3. 对 第 2 题 , 采 用 Display 表 来 代替 静态 链 。 假 设 采用 只 在 活动 记录 保存 一 个 Display 
表 项 的 方法 , 且 该 表 项 占据 图 中 SL 的 位 置 。 
(1) 指出 当前 运行 状态 下 Display 表 的 内 容 。 
(2) 指出 各 活动 记录 中 所 保存 的 Display 表 项 的 内 容 ( 即 图 中 所 有 SL 位 置 的 新 内 容 ) 。 
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4. 车 针对 嵌 套 过 程 中 非 局 部 量 的 使 用 采取 动态 作用 域 规则 ,第 2 题 程序 的 执行 效果 与 
之 前 有 何不 同 ? 
5. 当 图 9. 27 的 PL/0 程序 执行 到 过 程 p 被 第 二 次 激活 时 : 


(1) | var a,b,c; 
(2) | procedure p; 
(3) var s,t; 
(4) procedure r; 
(5) var v; 
(6) begin 
(7) call p; 
end; 
begin 


If a<b then call r; 


end; 4 
begin 
a:=1; 8B 帧 4 
b:=2; 2 帧 3 
callp 
asi u 帧 2 
end. 0 帧 1 
(a) 代码 (b) 运行 栈 
图 9.27 


(1) 说 明 运行 栈 ( 图 9.27(b)) 的 每 一 帧 属于 哪个 过 程 的 活动 记录 。 

(2) 指出 当前 执行 过 程 p 的 控制 链 (动态 链 ) 和 访问 链 ( 静 态 链 ) 的 内 容 。 图 中 的 1; 表示 
第 ;十 1 个 栈 帧 的 起 始 单元 位 置 , 即 针对 第 站 个 栈 帧 的 栈 顶 寄存 器 : 的 取 值 。 

6. 阅读 PL/0 编译 程序 的 相关 代码 ,深入 理解 PL/0 栈 式 动态 存储 分 配 的 基本 原理 和 
实现 方法 。 

7. 下 面 是 某 个 简单 的 单 继承 面向 对 象 语言 的 代码 片段 : 


class Computer{ 
int cpu; 
void Crash(int num Times) { 
int it; 
for(i=0;i<num Times; i=i+1) 
Print("sad\n") ; 


} 


class Mac extends Computer{ 
int mouse; 
void Crash(int num Times) { 
Print("ack!") 5 
i 
} 


void foo() 
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class Mac powerbook; 
powerbook= new Mac(); 
powerbook. Crash(2); 
} 
根据 图 9. 23 所 示 采 用 折 中 方法 的 面向 对 象 存储 组 织 方式 ,回答 以 下 问题 : 
(1) 当 powerbook 所 指向 的 对 象 创建 后 ,其 对 象 存储 空间 中 包含 哪些 内 容 ? 
(2) class Mac 的 vtable 中 包含 哪些 内 容 ? 
(3) 在 执行 函数 foo 时 ,执行 完 语句 powerbook=new Mac() 时 ,与 执行 前 相 比 , 栈 区 和 
:区 的 数据 信息 有 什么 变化 ? 概要 叙述 这 些 信息 的 具体 内 容 。 
(4) 在 执行 powerbook. Crash(2) 时 ,如 何 找到 方法 Crash 的 代码 位 置 ? 
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BS ”代码 优化 和 目标 代码 生成 


编译 过 程 最 后 阶段 的 工作 是 目标 代码 生成 ,其 输入 是 某 一 种 中 间 代 码 ( 如 三 地 址 码 ) 以 
及 符号 表 等 信息 ,输出 是 特定 目标 机 或 虚拟 机 的 目标 代码 。 通 常 ,在 各 级 中 间 代码 以 及 目标 
代码 层次 上 ,往往 要 通过 各 种 等 价 变换 对 代码 进行 改进 ,这 种 变换 称 为 代码 优化 ,优化 的 目 
标 可 以 是 程序 性 能 (运行 速度 更 快 ), 也 可 以 是 其 他 方面 ,如 代码 体积 (占用 空间 更 少 )、 程 序 
功 耗 (使 用 能 量 更 少 ) 等 。 

在 现代 编译 器 设计 中 ,代码 优化 和 目标 代码 生成 是 最 复杂 和 最 灵活 的 部 分 ,内 容 相当 丰 
富 。 限 于 本 书 的 目标 和 篇 幅 , 在 本 章 仅 涉及 代码 优化 和 目标 代码 生成 的 一 些 基 础 内 容 , 涵 盖 
必要 的 知识 点 和 重要 概念 。 首 先 介绍 程序 控制 流 分 析 方 面 的 基本 知识 ,包含 基本 块 ` 流 图 以 
及 循环 等 概念 。 其 次 是 程序 数据 流 分 析 方 面 的 基本 内 容 , 包 括 几 种 重要 的 数据 流 信息 及 其 
求解 算法 。 再 次 是 关于 代码 优化 的 简介 ,包括 个 别 优化 算法 以 及 对 代码 优化 的 概述 。 最 后 
是 有 关 目 标 代码 生成 的 内 容 , 介 绍 典型 的 目标 代码 生成 过 程 。 

PL/0 编译 器 是 贯穿 全 书 的 实例 ,本 章 包 含 了 其 目标 代码 生成 程序 基本 结构 的 介绍 。 
然而 ,由 于 PL/0 编译 器 非常 简单 ,并 未 涉及 本 章 的 多 数 内 容 。 本 书 另 一 个 编译 器 实例 是 
Decaf 编译 器 ,将 在 下 一 章 作为 备 选 的 课程 设计 进行 介绍 ,其 中 包含 了 较 多 与 本 章 相关 的 
内 容 。 

如 果 不 特别 指明 ,本 章 的 中 间 代 码 形式 均 指 三 地 址 码 (参见 第 8 章 ) 。 


10.1 基本 块 流 图 和 循环 


10.1.1 基本 块 


基本 块 (basic block) 是 指 程 序 中 一 个 顺序 执行 的 语句 序列 ,其 中 只 有 一 个 入 口语 句 和 
一 个 出 口语 句 。 执 行 时 只 能 从 其 人口 语句 进入 ,从 其 出 口语 句 退出 。 对 于 一 个 给 定 的 程序 ， 
可 以 把 它 划 分 为 一 系列 的 基本 块 。 因 为 在 作 优化 时 需要 尽 可 能 大 地 扩大 优化 范围 ,所 以 一 
般 会 默认 在 划分 基本 块 时 总 是 考虑 尽 可 能 大 的 基本 块 , 即 所 谓 极 大 基本 块 ( 若 再 添加 一 条 语 
句 就 不 满足 基本 块 的 条 件 了 ) 。 

从 前 面 的 定义 可 知 ,基本 块 的 入 口语 句 可 以 是 下 面 3 类 语句 中 的 任意 一 个 : 四 程序 的 
第 1 条 语句 ; @ 条 件 跳 转 语句 或 无 条 件 跳 转 语句 的 跳 转 目标 语句 ; @@ 条 件 跳 转 语句 后 面 的 
相 邻 语句 。 

划分 基本 块 的 方法 : 

(1) 先 求 出 各 个 基本 块 的 入 口语 句 。 

(2) 对 每 一 人口 语句 ,构造 其 所 属 的 基本 块 。 它 是 由 该 语句 到 下 一 入 口语 句 ( 不 包括 下 
一 入口 语句 ) ,或 者 到 某 个 跳 转 语句 (包括 该 跳 转 语句 ) ,或 者 到 某 个 停 语句 (包括 该 停 语句 ) 
之 间 的 语句 序列 组 成 的 。 
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凡 未 被 纳入 某 一 基本 块 的 语句 ,都 是 程序 中 控制 流程 无 法 到 达 的 语句 ,因而 也 是 不 会 被 
执行 到 的 语句 ,优化 时 可 以 把 它们 删除 。 

例如 ,图 10.1(a) 是 一 段 三 地 址 码 程 序 , 用 于 计算 一 个 以 16 的 阶乘 为 半径 的 圆 的 周 长 ， 

利用 前 述 划 分 基本 块 的 方法 来 分 析 这 段 代码 中 有 哪些 基本 块 。 首 先 确 定 入 口语 名 ,有 
(1)、(5)、(6) 和 (9)。 语 句 (1) 是 程序 的 开始 ,语句 (5) 表 示 语 句 (8) 跳 转 的 目标 语句 ,语句 (6) 
是 条 件 跳 转 语句 之 后 的 相 邻 语句 ,语句 (9) 是 语句 (5) 跳 转 的 目标 语句 。 从 入 口 指令 开始 ,将 
代码 分 为 4 个 基本 块 BB1、BB2、BB3 和 BB4, 如 图 10.1(b) 所 示 。 基 本 块 BB1 由 语句 (1) 到 
(4) 组 成 。 基 本 块 BB2 由 第 (5) 条 语句 组 成 。 基 本 块 BB3 是 由 语句 (6) 到 (8) 组 成 。 基 本 块 
BB4 即 最 后 3 条 语句 (9)~~(11)。 确 定 基 本 块 之 后 ,采用 二 BBi,j 记 形式 的 局 部 编号 (同时 保 
留 全 局 行 号 ) 来 表示 基本 块 BBi 中 的 第 j 条 语句 ,将 图 10. 1(b) 重 写 为 图 10. 1(c) 。 


.0 (2) <BB1,2> ar:=0.0 
(3) <BB1, 3> n:=16 
(4) <BB1, 4> r:=1 


(D)pi:=3.14 BBI (1) <BB1,1> pi:=3.14 
(1) pi:=3.14 


(5) if n<=1 goto(9) BB2 (5) <BB2,1> if n<=1 goto (9)] 


(4) r:=1 


G)if n<=1 goto (9) (6) r:=r*n BB3 (6) <BB3,1> r:=r*n 
(6) r:=r*n (Dn:=n-1 (7) <BB3, 2> n:=n-1 
(7)n:=n-1 (8) goto (5) (8) <BB3,3> goto(5) 
(8) goto (5) 

(9) ar:=2*pi (9) ar:=2*pi BB4 (9) <BB4,1> ar:=2*pi 
(10) ar:=ar*r (10) ar:=ar*r (10) <BB4,2> ar:=ar*r 
(11) print ar (ll)print ar (11) <BB4,3> print ar 

(a) (b) (c) 


图 10.1 计算 圆 的 周 长 的 三 地 址 中 间 代 码 和 基本 块 


10.1.2 HA 


把 程序 划分 为 基本 块 后 ,可 以 在 基本 块 内 实施 一 些 局 部 优化 。 为 了 实施 循环 和 全 局 优 
化 等 更 大 范围 的 优化 工作 ,需要 把 程序 (过 程 ) 作 为 一 个 整体 来 收集 信息 ,需要 分 析 基 本 块 之 
间 的 控制 流程 关系 ,分 析 基 本 块 内 部 以 及 基本 块 之 间 的 变量 赋值 变化 情况 。 

可 以 为 构成 程序 的 基本 块 增加 控制 流程 信息 ,方法 是 构造 一 个 有 向 图 , 称 为 流 图 或 控制 
流 图 (CFG,Control-Flow Graph)。 流 图 是 以 基本 块 集 为 结 点 集 的 有 向 图 ; 第 一 个 结 点 为 含 
有 程序 第 一 条 语句 的 基本 块 , 称 为 首 结 点 ; 从 基本 块 i 到 基本 块 j 之 间 存 在 有 向 边 , 记 作 
(i>)) , 当 且 仅 当 满足 以 下 两 个 条 件 之 一 : 

(1) 基本 块 j 是 程序 中 基本 块 i 之 后 的 相 邻 基本 块 ,并 且 基 本 块 i 的 出 口语 句 不 是 无 条 
件 跳 转 语句 goto 或 停 语句 或 返回 语句 。 

(2) 基本 块 i 的 出 口语 句 是 无 条 件 跳 转 goto L 或 者 条 件 跳 转 if…goto L. IFA L 是 基 
本 块 j 的 入 口语 句 标 号 , 即 基 本 块 i 出口 语句 的 跳 转 目 标 地 址 指向 基本 块 j 的 入 口语 句 。 

根据 基本 块 的 划分 以 及 流 图 的 构造 方法 ,一 个 流 图 的 首 结 点 是 唯一 的 ,并 且 从 首 结 点 出 
发 可 以 到 达 流 图 中 任何 一 个 结 点 。 

对 于 图 10. 1 的 程序 和 所 划分 的 基本 块 , 可 以 构造 流 图 如 图 10. 2。 其 中 结 点 基本 块 的 
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集合 为 {BB1, BB2, BB3, BB4}, 首 结 点 基本 块 是 BBl1, 有 向 边 的 集合 为 {(BB1 一 BB2)， 
(BB2—BB3) , (BB3—>BB2) ,(BB2-~BB4) } 。 


(1) <BB1,1> pi:=3.14 
(2) <BB1,2> ar:=0.0 
(3) <BB1, 3> n:=16 
(4) <BB1, 4> r:=1 


(5) <BB2,1> if n<=1 goto(9) 


fos ek 


(6) <BB3,1> r:=r*n (9) <BB4,1> ar:=2*pi 
(7) <BB3,2> n:=n-1 (10) <BB4,2> ar:=ar*r 
(8) <BB3,3> goto (3) (11) <BB4,3> print r 


图 10.2 流 图 的 例子 


流 图 可 以 用 来 精确 刻画 一 个 程序 的 控制 流程 , 即 程序 中 所 有 基本 块 之 间 的 执行 顺序 。 
流 图 中 , 某 一 个 基本 块 运行 之 后 可 以 到 达 的 所 有 基本 块 是 该 基本 块 的 后 继 基 本 块 ,可 以 直接 
运行 并 到 达 某 一 个 基本 块 的 所 有 基本 块 是 该 基本 块 的 前 趋 基本 块 。 图 10. 2 中 ,BB2 的 前 趋 
基本 块 包括 BB1 和 BB3 ,而 BB2 的 后 继 基 本 块 为 BB3 和 BB4。 

划分 基本 块 ,构造 程序 流 图 之 后 ,就 可 以 利用 这 些 来 捕获 程序 中 的 基本 特征 ,以 此 为 基 
础 开展 各 种 各 样 的 优化 以 及 服务 于 目标 代码 的 生成 。 


10.1.3 循环 


统计 分 析 表 明 ,对 于 大 多 数 应 用 程序 , 绝 大 多 数 运行 时 间 都 花费 在 循环 部 分 ,因此 循环 
优化 对 于 整个 程序 的 性 能 改进 具有 决定 性 意义 。 这 里 介绍 如 何 利用 流 图 来 识别 程序 中 的 循 
环 , 这 是 开展 循环 优化 的 必要 条 件 。 其 基本 思路 是 根据 流 图 计算 所 有 结 点 的 支配 结 点 集 , 然 
后 得 到 流 图 中 的 回 边 ,根据 回 边 就 可 以 确定 该 流 图 中 的 循环 。 

在 程序 流 图 中 ,对 任意 两 个 结 点 m 和 而 言 ,如 果 从 流 图 的 首 结 点 出 发 ,到 达 的 任 一 
通路 都 要 经 过 w, 则 称 mx 是 n 的 支配 结 点 (dominator) , 记 为 m DOM n, WAPAA n 
有 支配 结 点 的 集合 称 为 结 点 的 支配 结 点 集 , 记 为 D(n)。 设 n0 为 流 图 中 的 首 结 点 。 根 据 
这 个 定义 ,对 流 图 中 任意 结 点 a, 一 定 有 a DOM a 以 及 n0 DOM a, 即 任意 结 点 是 自身 的 支 
配 结 点 , 首 结 点 是 任意 结 点 的 支配 结 点 。 

图 10. 3 中 给 出 某 个 程序 的 流 图 ,其 结 点 即 程序 中 的 基本 块 ， 


结 点 的 支配 结 点 集 (o 如 下 ， O 
D 0)={1} © 
D (2)={1,2} COTO 
D (3)={1.2,3} (4) 
D (4)={1,2,4} a © 
D (5)={1,2,4,5} 
D (6) 一 {1,2,4,6} G) 
D ()={1,2,4,7)} 图 10.3 某 程 序 的 流 图 结构 
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假设 n>d 是 流 图 中 的 一 条 有 向 边 , 如 果 d DOM n WER nd 是 流 图 中 的 一 条 回 边 
(back edge) 。 作 为 例子 .下面 找 出 图 10. 3 中 流 图 的 所 有 回 边 。 

可 以 看 出 ,该 图 的 有 向 边 集合 为 {(1 一 2), 2—3), (2—4), (3—4), (4—2), 45) U> 
6),(5 一 7), (6—6), (6—7), (7 一 4))}。 对 照 支 配 结 点 集 D(n) 可 知 ,图 中 的 有 向 边 (6 王 6)、 
(7 二 4) 以 及 (4 一 2) 是 回 边 ,因为 有 6 DOM 6,4 DOM 7 以 及 2 DOM 4。 其 他 有 向 边 都 不 是 
回 边 。 

如 果 已 知 有 向 边 nd 是 回 边 ,那么 就 可 以 求 出 包含 该 回 边 的 自然 循环 (natural loop). 
简称 循环 。 该 循环 就 是 由 结 点 d、 结 点 n 以 及 有 通路 到 达 而 该 通路 不 经 过 d 的 所 有 结 点 
组 成 的 ,并 且 d 是 该 循环 的 唯一 入 口 结 点 。 同 时 , 因 d 是 n 的 支配 结 点 ,所 以 d 必 可 达 该 循 
环 中 任意 结 点 。 

对 于 图 10. 3 流 图 中 的 例子 ,很 容易 看 出 ,包含 回 边 (6 一 6) 的 循环 是 (16), 其 入口 结 点 为 
6; 包含 回 边 7—4 的 循环 是 {4,，5, 6, 7) ,其 入口 结 点 为 4; 而 包含 回 边 4>2 的 循环 是 {2， 
3，4，5，6,，7} ,其 人 口 结 点 为 2。 

又 如 图 10. 2 中 流 图 的 例子 ,有 向 边 集合 为 {(BB1 一 BB2), (BB2 一 BB3), (BB3 一 BB2)， 
(BB2—BB4) } ,每 个 结 点 的 支配 结 点 集合 为 

D (BB1)={BB1} 

D (BB2)={BB1,BB2} 

D (BB3) ={BB1,BB2,BB3} 

D (BB4) ={BB1,BB2,BB4} 

由 此 可 以 判定 回 边 只 有 (BB3 一 BB2) ,相应 的 循环 为 {BB2,BB3}) ,其 入口 结 点 为 BB2。 

简单 总 结 一 下 ,循环 结构 是 程序 流 图 中 具有 下 列 性 质 的 结 点 序列 : 

(1) 它们 是 强 连通 的 。 即 ,其 中 任意 两 个 结 点 之 间 必 有 一 条 通路 ,而 且 该 通路 上 各 结 点 
都 属于 该 结 点 序列 。 如 果 序 列 只 包含 一 个 结 点 , 则 必 有 一 有 向 边 从 该 结 点 引 到 其 自身 。 

(2) 它们 中 间 有 且 只 有 一 个 是 入 口 结 点 。 对 于 入 口 结 点 来 说 ,或 者 从 序列 外 某 结 点 有 
一 条 有 向 边 引 到 它 , 或 者 它 本 身 就 是 程序 流 图 的 首 结 点 。 

因此 ,本 节 定 义 的 循环 就 是 流 图 中 具有 唯一 入 口 结 点 的 一 个 强 连通 子 图 ,从 循环 外 要 进 
入 循环 ,必须 首先 经 过 循环 的 入 口 结 点 。 

找到 了 程序 中 的 循环 ,就 可 以 针对 循环 开展 相关 优化 。 


10.2 数据 流 分 析 基 础 


为 做 好 代码 生成 和 代码 优化 工作 ,通常 需要 收集 整个 程序 流 图 的 一 些 特定 信息 ,并 把 这 
些 信息 分 配 到 流 图 中 的 程序 单元 (如 基本 块 、 循 环 或 单条 语 名 等) 中。 这些 信息 称 为 数据 流 
信息 ,收集 数据 流 信 息 的 过 程 称 为 数据 流 分 析 (data-flow analysis) 。 

实现 数据 流 分 析 的 一 种 途径 是 建立 和 求解 数据 流 方 程 (data-flow equations)。 下 面 先 
介绍 数据 流 方程 的 概念 (10. 2. 1 节 ) ,然后 通过 以 基本 块 为 单位 的 两 种 重要 的 数据 流 为 例 来 
介绍 数据 流 方程 求解 的 基本 过 程 。 这 两 种 重要 的 数据 流 分 别 是 到 达 - 定 值 数据 流 
(10. 2.2 节 ) 和 活跃 变量 数据 流 (10. 2. 3 节 ) ,前 者 是 一 种 正 向 数据 流 信 息 , 后 者 则 是 一 种 反 
向 数据 流 信息 。 
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除了 到 达 - 定 值 和 活跃 变量 这 两 种 数据 流 信息 ,还 将 介绍 其 他 几 种 常用 的 数据 流 信 息 及 
其 分 析 算 法 (10. 2.4 节 ) ,包括 UD HEA DU 链 , 以 及 基本 块 内 变量 的 待 用 信息 和 活跃 信息 。 


10.2.1 数据 流 方 程 的 概念 


数据 流 方程 用 于 描述 流入 和 流出 某 程序 单元 或 程序 中 不 同 点 之 间 的 数据 流 信息 之 间 的 

联系 。 例 如 ,以 下 是 一 类 典型 的 数据 流 方程 : 

outlS]=gen[S]U (in[S] 一 killLS]) (10-1) 
其 含义 为 : 离开 程序 单元 S 时 的 数据 流 信息 (out[LS]) ,或 者 是 S 内 部 产生 的 信息 (gen[S]) ,或 
者 是 从 S 开始 处 进入 (in[LS]) 但 在 穿 过 S 的 控制 流 时 未 被 杀 死 (killed), 即 不 在 killLS] 中 的 
信息 。 

这 里 的 S 可 以 是 任何 程序 单元 ,比如 基本 块 .循环 或 单条 语句 等 。S 内 部 产生 的 数据 流 
信息 gen[Sj, 以 及 S 内 部 能 够 杀 死 的 数据 流 信息 killLS], 均 依赖 于 所 需要 的 信息 , 即 根据 
数据 流 方程 所 要 解决 的 问题 来 决定 。 

上 述 数据 流 方程 中 ,数据 流 信息 是 沿 着 控制 流 前 进 , 由 in[S] 来 定义 out[S], 这 种 数据 
流 称 为 向 前 流 , 相 应 的 数据 流 方程 称 为 正 向 数据 流 方程 。 

对 某 些 问题 ,数据 流 信 息 有 可 能 不 是 沿 着 控制 流 前 进 , 由 inLS] 来 定义 outLS], 而 是 反 
向 前 进 ,由 out[S] 来 定义 inLS]。 这 种 数据 流 称 为 向 后 流 , 相 应 的 数据 流 方程 称 为 反 向 数据 
流 方 程 。 典 型 的 反 向 数据 流 方程 形 如 

in[S]=gen[S]U (out[S]—kill[S]) (10-2) 

除了 式 (10-1) 和 式 (10-2) , 另 一 类 数据 流 方程 是 描述 合流 算 符 问题 。 所 谓 合流 算 符 ,是 
指 当 多 条 边 到 达 程 序 单元 S 时 ,由 S 前 趋 单元 的 out 集合 计算 in[S] 时 采用 的 运算 是 交 运 
算 还 是 并 运算 ,或 者 当 多 条 边 离开 S 时 ,由 S 后 继 单元 的 in 集合 计算 outLS] 时 采用 的 运算 
是 交 运 算 还 是 并 运算 。 通 过 合流 运算 计算 in[S] 或 out[LS] 的 数据 流 方 程 和 式 (10-1) 或 
式 (10-2) 的 联 立 和 求解 ,就 可 以 计算 出 所 需求 的 数据 流 信息 。 

10.2.2 节 和 10. 2. 3 节 分 别 介绍 以 基本 块 作为 程序 单元 S 的 两 种 数据 流 方程 及 其 求 
解 。 一 个 数据 流 方程 用 于 到 达 - 定 值 数据 流 分 析 ,是 一 种 正 向 数据 流 方程 。 另 一 个 数据 流 方 
程 用 于 活跃 变量 数据 流 分 析 , 是 一 种 反 向 数据 流 方程 。 到 达 - 定 值 数据 流 和 活跃 变量 数据 流 
是 两 种 十 分 常用 的 数据 流 信 息 。 


10.2.2 到 达 - 定 值 数 据 流 分 析 


对 变量 A 的 定 值 (definition) 是 指 一 条 (TAC) 语 句 赋值 或 可 能 赋值 给 A。 最 普通 的 定 
值 是 对 A 的 赋值 或 读 值 到 A 的 语句 ,该 语句 的 位 置 称 作 A 的 定 值 点 。 

变量 A 的 定 值 点 4 到 达 某 点 p .是 指 如 果 有 路 径 从 紧 跟 a 的 点 到 达 p ,并 且 在 这 条 路 径 
E d 未 被 * 杀 死 ”, 即 该 变量 未 被 重新 定 值 。 直 观 地 说 ,是 指 流 图 中 从 d 有 一 条 路 径 到 达 p 
且 该 通路 上 没有 A 的 其 他 定 值 。 

为 了 求 出 到 达 点 p 的 各 个 变量 的 所 有 定 值 点 , 先 对 程序 中 所 有 基本 块 B 定义 下 面 几 个 
ER: 

in[B]: 到 达 基 本 块 妃 入口 处 (入 口语 句 之 前 的 位 置 ) 的 各 个 变量 的 所 有 定 值 点 集合 。 

out[LB]: 到 达 B 出 口 处 ( 紧 接 着 出 口语 名 之 后 的 位 置 ) 的 各 个 变量 的 所 有 定 值 点 集合 。 
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genLB]: B 中 定 值 的 并 能 够 到 达 B 出 口 处 的 所 有 定 值 点 集合 , 即 B 所 “产生 ”的 定 值 点 
集合 。 
killLB]: 基本 块 B 外 满足 下 述 条 件 的 定 值 点 集 : 这 些 定 值 点 能 够 到 达 B 的 入 口 处 ,但 
所 定 值 的 变量 在 B 中 已 被 重新 定 值 , 即 B 所 “ 杀 死 "的 定 值 点 集合 。 

分 析 这 几 个 集合 之 间 的 关系 ,会 发 现 它们 符合 

out[B]= gen[B]U Gn[B]—kill[B]) (10-3) 
这 恰好 是 一 个 正 向 数据 流 方程 , 它 所 描述 的 数据 流 信 息 称 为 到 达 - 定 值 数据 流 。 

对 于 out[B], 其 计算 方法 为 所 有 该 基本 块 入 口 处 的 定 值 点 集合 inLB] 中 去 除 当前 基本 
块 “ 杀 死 " 的 定 值 点 ,再 加 入 当前 基本 新 “产生 ”的 定 值 点 ,因此 有 : 

(1) 如 果 某 定 值 点 4 在 genLB] 中 , 则 d 一 定 也 在 out BI. 

(2) 如 果 某 定 值 点 d 在 in LB] Pi A d 定 值 的 变量 在 B 中 没有 重新 定 值 ,那么 4 在 
out[LB] 中 。 

(3) 除 (1)、(2) 两 种 情况 外 ,没有 其 他 的 dE outLB]。 

进一步 ,经 过 分 析 到 达 - 定 值 数 据 流 的 合流 问题 ,容易 得 出 每 个 基本 块 B 的 in[B] 和 B 
的 所 有 前 趋 基 本 块 的 out 集合 之 间 的 关系 为 

in[LB]=U(CoutLO) bE PLB] (10-4) 
其 中 ,PL[B] 为 B 的 所 有 前 驱 基 本 块 的 集合 。 

由 式 (10-4) sin LB] B 的 所 有 前 趋 基本 块 的 出 口 处 out 集合 的 并 集 。 对 于 inLB], 容 
易 看 出 : 某 定 值 点 d 到 达 B 的 入 口 处 , 当 且 仅 当 它 到 达 B 的 某 一 前 趋 基 本 块 的 出 口 处 。 

式 (10-3) 和 式 (10-4) 两 个 数据 流 方程 的 联 立 称 为 到 达 - 定 值 数据 流 方程 。 

gen[B] 和 kill[B] 是 每 个 基本 块 B 的 固有 属性 , 均 可 直接 从 基本 块 本 身 给 出 。 这 样 , 通 
过 到 达 - 定 值 数据 流 方程 ,就 可 求解 出 所 有 的 inl BJ Al outLB]。 

考察 图 10. 4 的 流 图 。 为 简洁 ,图 中 省 略 了 各 基本 块 出 口 处 的 跳 转 语句 (如 果 有 的 话 ) 。 
各 TAC 语句 左边 的 d 分 别 代表 该 语句 的 位 置 。 假 设 只 考虑 变量 i 和 j ,我 们 先 计算 出 所 有 
SEALE BY gen[Bj 和 kill[Bj], 如 图 10.5 所 示 。 


| 
d, i=2 
d| jari |B 
m~ l eo 
d| i=l |B 基本 块 B gen(B) kill(B) 
i 
a Gatos Bı {disd} | (ds sdi +d; ) 
i B: {d,s} {di} 
= 1B: 
d| IA j B, (di) (dz sds} 
d| ani |p B: {ds} {di} 
d| b= 4 
B; Ø Ø 
1 
图 10.4 某 个 流 图 图 10.5 计算 gen 和 kill 
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有 了 genLB] 和 killLB], 就 可 以 通过 数据 流 方程 (10-3) 和 (10-4) 来 求解 outLB] 和 
inLB] 了 。 

设 流 图 中 及 个 结 点 , 则 数据 流 方程 (10-3) 和 (10-4) 是 共有 2n 个 变量 的 inLB] 和 
outLB] 的 线性 联 立方 程 组 。 可 以 采用 如 下 的 迭代 算法 来 给 出 这 个 方程 组 的 一 个 最 小 不 动 
点 解 (实际 中 需要 的 解 ) : 

(1) for it=1 ton { // 置 初 值 

(2) in[B,] += Ø 

(3) out B; ] :一 gen[B,]; 

(4) } 

(5) change := true; 

(6) while change { 

(7) change := false; 

(8) for i*=1 ton { 


(9) newin := Uout[b] (bE PLB; ]) 

(10) if newinAin [B;] { 

ap change := true; 

a2) in [B,] :=newin; 

(13) out [Bi] += gen[B;]U Cin B; ]—kill[B; J) 
a4) } 

(15) } 

(16) } 


上 述 算法 中 ,首先 设置 每 个 in LB] 和 out [Bi;] 的 迭代 初 值 分 别 为 名 和 gen [B]. 
后 ,在 第 (8) 行 中 依次 计算 各 基本 块 的 in 和 out. change 是 用 来 判断 结束 的 布尔 变量 。 
newin 是 集合 变量 ,对 每 一 基本 块 B;, 如 果 前 后 两 次 迭代 计算 出 的 newin 值 不 相等 , 则 置 
change 为 true, 这 表示 尚 需 进 行 下 一 次 迭代 。 

例如 ,对 图 10. 4 的 流 图 ,假设 只 考虑 变量 i 和 j, 应 用 以 上 算法 , 求 联 立 数据 流 方 
程 (10-3) 和 (10-4) 的 解 。 

图 10.5 已 列 出 各 基本 块 的 gen 和 kl。 根据 上 述 算法 ,求解 步骤 如 下 : 

开始 时 , 置 迭 代 初 值 : 

in[B, ]=in[B, ]=in[B; ]=in[B, ]=in[B; ]= Ø 

out[Bi]= {di +d2} 


out[B:]= {ds} 
out B; ]= {d4} 
out B, |= {ds} 
out[B;]= Ø 


执行 算法 第 (5) 行 , 置 change 为 true。 第 1 次 迭代 开始 ,首先 置 change 为 false。 在 算 
法 第 (8) 行 依次 对 B, 、B,、B;、B, 和 Bs 执行 算法 第 (9) 一 (13) 行 。 这 样 ,一 直 迭 代 下 去 ,直至 
newin 值 不 发 生变 化 为 止 。 我 们 发 现 .第 4 次 选 代 的 结果 与 第 3 次 迭代 完全 相同 。 因 此 ,第 
3 次 迭代 后 的 in 和 out 就 是 最 后 求 出 的 结果 。 前 3 次 迭代 的 结果 如 图 10.6 所 示 。 
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基 第 1 次 迭代 第 2 次 迭代 第 3 次 迭代 

in(B) out(B) in(B) out(B) in(B) out(B) 

Bı | {ds} {disd2} {d2+d3} {di ,d2} {dz ,ds3,d4,ds} {di dz)} 

Bz | {di +d2} {ds ,ds} {dı »d2 »+d3 +d; ds} {d2 ,da,di,ds} {dı »dz ,da,ds,ds}| {d2 +d3+dssds} 
B; | {d2 ,ds} {d3sd4} {d2sd3,d4,d5} {dads} {dz ,da,ds,ds} {ds,ds} 

By | (ds,ds} {d3,ds} {d3 ds} {da,ds} {ds,d:} {ds,ds} 

Bs | {ds sd; sds }| {d3+dasds}| {ds,dsrds} {d3 sd; d5} {d3 sdi »ds5} {d3 ,divds} 


图 10.6 计算 in 和 out 


有 了 到 达 - 定 值 数据 流 信息 ,就 可 以 方便 地 求 出 到 达 程 序 某 一 点 p 的 各 个 变量 的 所 有 
定 值 点 。 可 以 按 下 述 规 则 求 出 到 达 基 本 块 B 中 某 点 p 的 任 一 变量 A 的 所 有 定 值 点 : 

CL) WR BP p 的 前 面 有 A 的 定 值 , 则 到 达 p 的 A 的 定 值 点 是 唯一 的 , 它 就 是 与 p 最 
靠近 的 那个 A 的 定 值 点 。 

(2) WR BP p 的 前 面 没有 A 的 定 值 , 则 到 达 p 的 A 的 所 有 定 值 点 就 是 inLB] 中 人 的 
那些 定 值 点 。 


10.2.3 活跃 变量 数据 流 分 析 


一 些 数据 流 信息 的 获得 依赖 于 从 程序 流 图 反方 向 进行 计算 ,活跃 变量 信息 就 是 其 中 的 
一 种 。 本 节 讨论 以 基本 块 为 单位 的 活跃 变量 数据 流 分 析 。 

对 程序 中 的 某 变量 A 和 某 点 p 而 言 ,如 果 存 在 一 条 从 p 开始 的 通路 ,其 中 引用 了 A 在 
Bip 的 值 , 则 称 A 在 点 p 是 活跃 的 ,否则 称 A 在 点 p 是 死亡 的 。 为 了 求 出 各 基本 块 B 入 口 
和 出 口 处 的 活跃 变量 信息 ,定义 以 下 集合 : 

LiveIn [B]: B 入 口 处 的 活跃 变量 的 集合 。 

LiveOut [B]: B 出 口 处 的 活跃 变量 的 集合 。 

Def [B]: B 中 定 值 的 且 定 值 前 未 曾 在 B 中 引用 过 的 变量 集合 。 

LiveUse [B]: B 中 被 定 值 之 前 要 引用 的 变量 集合 。 

这 几 个 集合 之 间 满 足下 列 数据 流 方程 : 

LiveIn [B]=LiveUse [BJ]U (LiveOut [B]—Def [B]) (0-5) 

这 个 方程 是 通过 B 出 口 处 的 信息 来 计算 B 入 口 处 的 信息 ,是 一 个 反 向 数据 流 方程 ,所 
描述 的 数据 流 信 息 称 为 活跃 变量 数据 流 。 可 以 看 出 ,如 果 变 量 在 B 中 定 值 前 有 引用 ,或 者 
TE B 出口 处 活路 并 且 没 有 在 B 中 被 定 值 ,那么 它 在 B 入 口 处 就 是 活跃 的 。 

此 外 ,容易 看 出 每 个 基本 块 B 的 LiveOut[Bj] 和 B 的 所 有 后 继 基 本 块 的 LiveIn 集合 之 
间 的 关系 为 

LiveOut[B]= U (LiveIn[6]) bES[B] (10-6) 
其 中 ,SLB] 为 B 的 所 有 后 继 基本 块 的 集合 。 

方程 (10-6) 指 出 ,变量 在 B 出 口 处 活跃 , 当 且 仅 当 它 在 B 的 某 个 后 继 基 本 块 入 口 处 活跃 。 

我 们 称 式 (10-5) 和 式 (10-6) 两 个 数据 流 方程 的 联 立 为 活跃 变量 数据 流 方程 。 

LiveUseLB] 和 Def[B] 是 每 个 基本 块 B 的 固有 属性 , 均 可 直接 从 基本 块 本 身 给 出 。 这 
PE ,通过 活跃 变量 数据 流 方程 ,就 可 求解 出 所 有 的 LiveInLB] 和 LiveOutLB]。 

假设 流 图 中 及 个 结 点 , 则 数据 流 方程 (10-5) 和 (10-6) 是 共有 2n 个 变量 的 线性 联 立方 程 
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可 以 采用 如 下 的 迭代 算法 来 给 出 这 个 方程 组 的 一 个 最 小 不 动 点 解 (实际 中 需要 的 解 ) : 


(1) for i?*=1 ton { // 置 初 值 
(2) LiveOut[B; ] := Ø 

(3) Liveln[B; ] +=LiveUseLB, ]; 

(4) } 

(5) change := true; 

(6) while change { 


(7) change += false; 

(8) for i?=1 ton { 

(9) newout := U Liveln[b] (b€ SLB, ]) 

a0) if newout#LiveOut [Bi] { 

(11) change := true; 

(12) LiveOut [B; ] :一 newout; 

(13) Liveln [B,] += LiveUse[B; ]U (LiveOut[B; ]— Def B, ]) 
a4) } 

a5) } 

(16) } 


考察 图 10. 4 的 流 图 。 先 计算 出 所 有 基本 块 B 的 LiveUse [B] 和 Def [B]。 然 后 执行 上 


述 迭 代 算 法 ,可 求解 出 LiveIn [Bj 和 LiveOut [B]。 计 算 结果 如 图 10.7 所 示 。 


基本 块 B LiveUse(B) Def(B) LiveOut(B) Liveln(B) 
Bı Ø {isj} {j} Ø 
B: Ø {i} {isj} {j} 
B, {j} Ø {isj} {i,j} 
B, {j} Ø {isj} {i,j} 
B; {isj} Ø {j} {i,j} 


图 10.7 计算 活跃 变量 数据 流 信息 


10.2.4 几 种 重要 的 变量 使 用 数据 流 信 息 


利用 基本 块 和 流 图 可 以 方便 地 跟踪 变量 的 使 用 信息 。 代 码 优 化 和 目标 代码 生成 的 基本 


依据 是 变量 的 使 用 信息 ,只 有 确切 获得 基本 块 内 部 以 及 块 间 的 变量 使 用 情况 之 后 ,才能 够 进 
行 适 当 的 代码 变换 以 及 进行 寄存 器 分 配 等 工作 。 


引 


本 节 介 绍 几 种 重要 的 变量 使 用 数据 流 信 息 的 获取 。 首 先是 有 关 刻 画 流 图 范围 内 变量 的 


点 和 定 值 点 相关 联 信息 的 UD 链 和 DU 链 , 然 后 是 关于 基本 块 流 图 范围 内 变量 的 待 用 


信息 和 活跃 信息 。 


10.2.4.1 UD 链 


从 10. 2. 2 节 可 知 ,利用 到 达 - 定 值 数据 流 信 息 可 以 方便 地 求 出 到 达 基 本 块 忆 中 某 点 p 


的 任 一 变量 A 的 所 有 定 值 点 。 这 个 过 程 可 用 于 计算 典型 的 数据 流 信 息 一 一 UD 链 。 
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假设 在 程序 中 某 点 u 引用 了 变量 A 的 值 , 则 把 能 到 达 的 A 的 所 有 定 值 点 的 全 体 称 为 
A 在 引用 点 的 引用 - 定 值 链 (Use-Definition Chaining) ,简称 UD 链 。 类 似 于 10. 2. 2 节 结 
尾 处 所 述 ,可 以 在 到 达 - 定 值 数 据 流 信息 基础 上 计算 UD 链 信息 ,其 规则 如 下 : 

(1) 如 果 在 基本 块 B 中 ,变量 A 的 引用 点 w 之 前 有 A 的 定 值 点 d ,并 且 A 在 点 d 的 定 
值 可 以 到 达 ,那么 A 在 点 u 的 UD 链 就 是 {d)。 

(2) 如 果 在 基本 块 中 ,变量 A 的 引用 点 x 之 前 没有 A 的 定 值 点 ,那么 ,inLB] 中 A 的 所 
有 定 值 点 均 到 达 ,它们 就 是 A 在 点 zx 的 UD 链 。 

采用 上 述 规则 ,可 以 求 出 图 10.4 中 变量 i 和 j 的 UD 链 : 

i 在 引用 点 d; 的 UD 链 为 {di); 

j 在 引用 点 di 的 UD EH (de ,ds ,ds); 

j 在 引用 点 ds 的 UD BEH (dy); 

i 在 引用 点 ds 的 UD BEA (ds); 

j 在 引用 点 d; 的 UD 链 为 {d ,d;)。 


10.2.4.2 DU 链 


和 UD 链 对 应 的 另 一 个 典型 的 数据 流 信息 是 DU 链 。 

假设 在 程序 中 某 点 p 定义 了 变量 A 的 值 ,从 p 存在 一 条 到 达 A 的 某 个 引用 点 的 路 
径 , 且 该 路 径 上 不 存在 A 的 其 他 定 值 点 , 则 把 所 有 此 类 引用 点 s 的 全 体 称 为 A 在 定 值 点 p 
的 定 值 -引用 链 (Definition-Use Chaining) ,简称 DU $£. 

从 直观 上 理解 ,DU 链 的 计算 可 采用 向 后 流 的 方法 。 一 种 可 选 的 方案 是 首先 对 活跃 变 
量 信息 进行 扩展 。 

活跃 变量 数据 流 方程 的 解 LiveOut [Bj 所 给 出 的 信息 是 : 离开 基本 块 B 时 ,哪些 变量 
的 值 在 B 的 后 继 中 还 会 被 引用 。 如 果 LiveOut [B] 不 仅 给 出 上 述 信息 ,而 且 同 时 给 出 它们 
在 B 的 后 继 中 哪些 点 会 被 引用 ,那么 就 可 直接 应 用 这 种 信息 来 计算 B 中 任 一 变量 A 在 定 值 
点 的 DU E, XIT, REX BIP p 后 面部 分 进行 扫描 ; 如 果 B 中 pp 后面 没有 A 的 其 他 定 
值 点 , 则 B 中 p 后 面 A 的 所 有 引用 点 加 上 LiveOut [BJ] 中 A 的 所 有 引用 点 ,就 是 A 在 定 值 
点 p H DU EWR B P p 后面 有 A 的 其 他 定 值 点 , 则 从 p 到 与 p 距离 最 近 的 那个 A 的 定 
值 点 之 间 的 A 的 所 有 引用 点 就 是 A 在 定 值 点 p 的 DU 链 。 所 以 ,问题 归结 为 如 何 计算 出 带 
有 上 述 引 用 点 信息 的 LiveOut [B]. 

为 此 ,需要 把 活跃 变量 数据 流 方程 (10-5) 和 (10-6) 中 的 LiveUse 和 Def 代表 的 信息 进 
行 如 下 扩充 : 

(1) LiveUse [Bj] 为 (;,A) 的 集合 ,其 中 :是 B 中 某 点 ,s 引用 变量 A Mf. ALB 中 在 s 
前 面 没 有 A 的 定 值 点 。 

(2) Def [Bj 为 (;,A) 的 集合 ,其 中 ;是 不 属于 B 的 某 点 ,s 引用 变量 A 的 值 ,但 A 在 B 
中 被 重新 定 值 。 

扩充 后 的 方程 称 为 DU 链 数 据 流 方程 。 其 求解 算法 类 似 于 活跃 变量 数据 流 方程 (10-5) 
和 (10-6) 的 求解 算法 ,只 是 其 中 Def 和 LiveUse 指 扩充 后 的 Def 和 LiveUse。 

采用 上 述 求解 方法 ,可 以 求 出 图 10. 4 中 变量 i 和 j 的 DU 链 : 

i 在 定 值 点 di 的 DU 链 为 {ds); 

j 在 定 值 点 d: 的 DU EH (di); 
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i 在 定 值 点 ds 的 DU BEA {ds}; 
j 在 定 值 点 di 的 DU 链 为 {d ,ds ,di }; 
j 在 定 值 点 ds 的 DU 链 为 {d, ,di)。 


10.2.4.3 基本 块 内 变量 的 待 用 信息 


跟踪 变量 的 值 在 单个 基本 块 内 部 变化 的 目标 之 一 是 找到 修改 或 使 用 该 变量 值 的 位 置 ， 
分 别 对 应 为 该 变量 的 定 值 点 和 引用 点 。 本 小 节 介 绍 的 待 用 信息 Cnext use) 用 来 跟踪 变量 在 
基本 块 内 紧 接着 一 次 使 用 该 变量 的 情况 。 
假定 一 个 基本 块 BB 如 下 : 
<BB,l> t:=a—b 
< BB,2> ut=u-—c 
< BB,3> vv: 一 上 十 zx 
< BB,4> ct=vutu 
下 面 来 分 析 这 个 基本 块 BB 中 各 变量 的 待 用 信息 情况 。 
对 于 当前 基本 块 的 第 i 条 语句 的 某 个 变量 v, 如 果 在 当前 基本 块 该 语句 之 后 的 第 j 条 语句 
中 被 引用 ,而 第 j 条 语句 之 前 (第 i 条 语句 之 后 ) 未 被 引用 , 则 第 i 条 语句 中 变量 v 的 待 用 信息 
记 为 j; 如 果 当 前 基本 块 内 第 i 条 语句 之 后 不 再 引用 该 变量 ,其 待 用 信息 记 为 0。 我 们 的 目标 是 
把 这 些 信息 标注 于 各 个 变量 的 右上 角 , 并 跟踪 基本 块 内 各 变量 待 用 信息 的 变化 情况 。 
用 nextuse(z) 来 表示 处 理 过 程 中 变量 x 当前 的 待 用 信息 ,初始 时 , 令 


nextuse(a)=nextuse(b)=nextuse(c)=nextuse(t)=nextuse(u)=nextuse(v)=0 


随后 ,从 后 向 前 逐条 语句 地 考查 基本 块 中 的 所 有 变量 ,从 基本 块 出 口 到 入 口 对 每 个 
TAC 语句 i: A :=B op C 依次 执行 下 述 步骤 ， 
(1) 把 变量 A 的 nextuse 信息 附加 到 TAC HAJ i Eo 
(2) 置 nextuse(A) 为 0( 由 于 在 i 中 对 A 的 定 值 只 能 在 i 以 后 的 TAC 语句 中 引用 , 因 
而 对 i 以 前 的 TAC 语句 来 说 A 不 可 能 是 待 用 的 )， 
(3) 把 变量 BAIC 的 nextuse 信息 附加 到 TAC 语句 上。 
(4) 置 nextuse(B)=nextuse(C) =i., 
HER: 以 上 (1) 一 (4) 的 次 序 不 能 颠倒 。 
对 于 上 述 基本 块 BB ,首先 将 当前 c 的 nextuse 信息 附加 到 语句 二 BB, 4> E: 
<BB.4> oo:=vwitu 
Hii nextuse(c) 为 0, 并 将 v Alu 的 最 新 nextuse 信息 附加 到 语句 二 BB, A>: 
<BB,4> d= +u 
EH nextuse(v) =nextuse(w) =4, HA. KEEN nextuse 信息 变 为 


nextuse(a) = nextuse(b) = nextuse(c) =nextuse(t) =0,nextuse(u) =nextuse(v) =4 
重复 上 述 过 程 ,将 当前 v 的 nextuse 信息 附加 到 语句 二 BB, 3> Lb: 
<BB,3> v :=t+u 
< BB, 4> &:=v +u 
重 置 nextuse(v) 为 0, 并 将 1 和 ww 的 最 新 nextuse 信息 附加 到 语句 二 BB, 3> E: 
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< BB, 3> v= +u 
< BB, 4> =v +u 
重 置 nextuse(1) 一 nextuse(x) 一 3。 当 前 ,各 变量 的 nextuse 信息 变 为 


nextuse(a) = nextuse(b) = nextuse(c) =nextuse(v) =0,nextuse(t) = nextuse(u) =3 


再 重复 上 述 过 程 ,将 当前 u 的 nextuse 信息 附加 到 语句 二 BB, 2> E: 

<BB,2> uw =u—c 
<BB, 3> v= +u 
< BB, 4> :=v°+u° 

重 置 nextuse(w) W 0.964 u 和 c 的 最 新 nextuse 信息 附加 到 语句 二 BB, 2> E: 
<BB,2> wi=w—e 
<BB,3> of :=2+u! 
<BB,4> P= +u 

重 置 nextuse(x) 一 nextuse(c) 一 2。 当 前 ,各 变量 的 nextuse 信息 变 为 


nextuse(a) = nextuse(b) = nextuse(v) =0,nextuse(t) =3,nextuse(c)= nextuse(u) =2 


最 后 一 次 重复 上 述 过 程 ,将 当前 1 的 nextuse 信息 附加 到 语句 二 BB, 1 之 上 : 

<BB,1> #:=a—b 
<BB,2> w= 
<BB,3> v= +u 
< BB, 4> c:=v’+u° 

重 置 nextuse(1) 为 0, 并 将 a Alb 的 最 新 nextuse 信息 附加 到 语句 二 BB, 1> k: 
<BB, 1> Bi:=a—b 
< BB, 2> w:=u°—c° 
< BB, 3> v= +u 
< BB, 4> d= tu 

重 置 nextuse(a)=nextuse(b)=1, Mi, HERH nextuse 信息 变 为 


nextuse(t) = nextuse(v) =0,nextuse(c) = nextuse(u) =2,nextuse(a) =nextuse(b) =1 
算法 结束 。 这 样 ,我 们 便 成 功 跟踪 了 基本 块 内 各 变量 的 待 用 信息 情况 。 
10. 2.4.4 基本 块 内 变量 的 活跃 信息 


一 个 基本 块 中 ,如 果 某 个 变量 A 在 语句 i 中 被 定 值 ,在 i 之 后 的 语句 7 中 要 引用 A 值 ， 
且 从 i 到 j 之 间 没 有 其 他 对 A 的 定 值 点 , 则 在 语句 i 到 j 之 间 A 是 活跃 的 。 

为 了 跟踪 在 一 个 基本 块 内 每 个 变量 的 活跃 信息 ,同样 可 以 从 基本 块 出 口语 句 开 始 由 后 
向 前 扫描 ,为 每 个 变量 名 建立 相应 的 活跃 信息 链 。 考 虑 到 处 理 的 方便 ,假定 对 基本 块 中 可 能 
在 其 他 基本 块 中 使 用 的 变量 在 出 口 处 都 是 活跃 的 ,而 对 基本 块 内 的 临时 变量 不 允许 在 基本 
块 外 引用 ,因此 这 些 临时 变量 在 基本 块 出 口 处 都 认为 是 不 活路 的 。 

考虑 与 10. 2. 4. 3 节 相 同 的 基本 块 BB: 

<BB,1> t:=a—b 
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<BB,2> ut=u-—c 
<BB,3> vi=t+u 
<BB,4> c:=v+u 
其 中 ,ae 和 c 是 在 出 口 处 活跃 的 变量 ,而 iu 和 w 是 临时 变量 ,在 出 口 处 不 活跃 。 
下 面 来 分 析 和 标记 这 个 基本 块 BB 中 出 现 的 所 有 变量 的 活路 信息 链 。 活 跃 变 量 标记 为 
L, 非 活跃 变量 标记 为 kf。 同样 ,我 们 的 目标 是 把 这 些 信息 标 注 于 各 个 变量 的 右上 角 , 并 跟踪 
基本 块 内 各 变量 活跃 信息 的 变化 情况 。 
用 live(z) 来 表示 处 理 过 程 中 变量 x 当前 的 活跃 信息 ,初始 时 , 令 


live(a) = live(b) =live(c) =L, live(t) =live(u) =live(v) =F 


随后 ,从 后 向 前 逐条 语句 地 考查 基本 块 中 的 所 有 变量 ,从 基本 块 出 口 到 入 口 对 每 个 
TAC 语句 i: A :=BopC 依次 执行 下 述 步骤 
(1) 把 变量 A 的 live 信息 附加 到 TAC HA i Eo 
(2) 置 live(A) 为 F( 由 于 在 i 中 对 A 的 定 值 只 能 在 i 以 后 的 TAC 语句 中 引用 ,因而 对 i 
以 前 的 TAC 语句 来 说 A 是 不 活跃 的 )。 
(3) 把 变量 BAC 的 live 信息 附加 到 TAC 语句 i 上。 
(4) 置 live(B)=live(C) =L., 
HEB: 以 上 (1) 一 (4) 的 次 序 不 能 颠倒 。 
对 于 上 述 基 本 块 BB, 首 先 将 当前 c 的 live 信息 附加 到 语句 二 BB, 4 之 上: 
<BB,4> chi=vu+tu 
EH live) H FHH v Au 的 最 新 live 信息 附加 到 语句 二 BB, A>: 
< BB, 4> 
重 置 live(v) 二 live(w) 二 L。 当 前 ,各 变量 的 live 信息 变 


live(a)= live(b)= live(v)= live(u)=L,live(c)=live(?)=F 

重复 上 述 过 程 ,将 当前 v 的 live 信息 附加 到 语句 BB, 3 二 上 : 
<BB,3> vw:=it+u 

<BB,4> chi= oF tu 

ive(v) 为 ,并 将 4 和 w 的 最 新 live 信息 附加 到 语句 二 BB, 3 之 上 : 
< BB,3> vb t= eF+ut 

<BB,4> ct:= w+ur 
ive(1) 二 live(w) 二 L。 当 前 ,各 变量 的 live 信息 变 为 


重 置 


重 置 


live(a) =live(b) =live(t) =live(u) =L, live(c) =live(v) =F 


再 重复 上 述 过 程 ,将 当前 的 live 信息 附加 到 语句 二 BB, 2 之 上 
< BB; 25> ai 
<BB.3> 
< BB,4 > : 

EH live(w) H FIR u 和 c 的 最 新 live 信息 附加 到 语句 BB, 2> E: 
<BB,2> ul:= 


=u —F 


We 
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<BB,3> vere tu 
<BB,4> d= +uF 
重 置 live(w) 二 live(c) 二 L。 当 前 ,各 变量 的 live 信息 变 为 


live(a) =live(b) =live(c) =live(t) =live(u)=L,live(v)=F 


最 后 一 次 重复 上 述 过 程 ,将 当前 1 的 live 信息 附加 到 语句 二 BB, 1 之 上 : 
<BB, 1> wt:=a—b 
< BB, 2> ut :=yF—F 
< BB, 3> vt := ff +u! 
< BB, 4> chi= +u" 

重 置 live(1) 为 F, 并 将 a 和 2 的 最 新 live 信息 附加 到 语句 二 BB, 1> Lb: 
<BB,1> # :=a'—o5 
<BB,2> w:=yF—cF 
<BB,3> vw :=f +u! 
<BB,4> cr :一 四 十 三 

重 置 live(o) = live) =L, Hij KEH live 信息 变 为 : 


live(a) =live(b) = live(c) =live(u) =L, live(t) =live(v) =F 


算法 结束 。 这 样 ,我 们 便 成 功 跟踪 了 基本 块 内 各 变量 的 活跃 信息 情况 。 
10.3 ”代码 优化 技术 


代码 优化 工作 可 以 在 编译 的 各 个 阶段 进行 。 本 质 上 讲 , 保 证 程序 的 含义 保持 一 致 的 情 
况 下 对 代码 的 任何 修改 都 是 允许 的 。 也 就 是 说 ,代码 优化 不 应 改变 程序 运行 的 结果 ,必须 要 
保证 优化 后 的 代码 与 原来 的 代码 完成 相同 的 工作 。 

“没有 最 优 ,只 有 更 优 ”, 这 句 话 极为 准确 地 刻画 出 编译 器 优化 的 特点 ,可 以 从 理论 上 证 明 ， 
不 论 针对 哪 一 个 优化 目标 ,都 无 法 找到 一 个 能 够 生成 最 优 代码 的 编译 器 ,因此 ,人 们 总 是 在 不 
断 地 研究 和 开发 性 能 更 好 的 编译 器 。 下 面 给 出 两 张 图 ,分 别 展示 两 个 重要 开源 编译 器 ged 
和 open”) 的 程序 性 能 和 代码 体积 比较 结果 ,测试 用 的 gcc 版 本 为 4. 2. 4,open64 版 本 为 4. 2。 

硬件 环境 是 联想 X200 笔记 本 电脑 ,配置 为 Intel Core2 Duo CPU P8400 处 理 器 , 主 频 
H 2. 26GHz, 操 作 系统 为 Ubuntu Linux 8. 10。 测 试 软件 用 于 计算 快速 傅 里 叶 变 换 (FFT) , 
对 比 内 容 为 两 个 方面 : 一 是 相同 的 应 用 程序 源 代码 ,分 别 采用 gec 和 open64 在 不 同 的 编译 
优化 级 别 下 进行 编译 ,比较 可 执行 程序 的 代码 体积 ; 二 是 给 定 一 组 相同 的 输入 数据 ,分 别 运 
行 前 面 得 到 的 可 执行 程序 ,确保 计算 结果 正确 的 情况 下 对 比 运行 时 间 。 

对 于 gcc 和 open64 这 样 的 通用 编译 器 ,其 优化 选项 会 划分 OOO1 02.03 等 不 同 的 级 
别 , 其 中 数字 0 一 3 表示 优化 逐步 加 强 , 比 如 00 表示 不 优化 ,03 则 进行 更 多 、 更 激进 的 优化 
工作 。 通 常 来 讲 ,在 相同 的 硬件 和 操作 系统 环境 下 ,不同 的 编译 优化 选项 的 结果 是 不 同 的 ， 
采用 03 选项 编译 的 结果 运行 要 更 快 一 些 , 而 代码 体积 也 有 可 能 会 更 大 一 些 。 

图 10. 8 给 出 计算 性 能 比较 , 纵 轴 为 时 间 , 单 位 是 秒 ,运行 时 间 越 短 越 好 。 图 中 可 以 看 
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出 , 随 着 优化 级 别 的 不 断 升 高 ,程序 的 性 能 在 不 断 提高 ,运行 时 间 不 断 减 少 。 


FFT run time comparison 
30 


20 
n 
E] 
E 
E 10 
0 
00 02 03 
O sce 19.138 17.388 17.308 
E open64 19.683 16.074 16.016 
Options 


10.8 优化 实例 : 快速 傅立叶 变换 性 能 优化 比较 


图 10. 9 给 出 可 执行 代码 体积 比较 , 纵 轴 为 可 执行 程序 在 硬盘 中 所 占用 的 存储 空间 ,单位 
是 KB, 体 积 越 小 越 好 。 从 图 中 可 以 看 到 ,不 同 的 优化 选项 生成 的 可 执行 程序 体积 差别 很 大 。 


Code Size Comparison 


E 


Size/KB 
o u = 


00 02 03 
gee 8.813 8.439 8.423 
口 open64 10.739 10.417 14.729 
Options 


图 10.9 优化 实例 : 快速 傅立叶 变换 代码 体积 比较 


图 10.8 和 图 10. 9 至 少 可 以 给 我 们 这 样 一 些 启示 : 

(1) 编译 优化 将 带 来 性 能 改进 ,不 同 的 编译 器 的 改进 情况 不 同 , 本 例 中 O3 优化 选项 的 
性 能 改进 分 别 达到 9,5% (geo) Al 18.6% (open64) ,事实 上 ,同样 的 编译 器 和 编译 选项 ,对 
于 不 同 应 用 程序 的 性 能 改进 也 可 能 不 同 。 

(2) 不 同 优化 选项 生成 的 可 执行 程序 代码 体积 差别 很 大 。 

(3) 不 同 的 编译 器 优化 策略 和 优化 方法 不 同 ,本 例 中 ,gcc 编译 器 在 优化 性 能 改进 的 同 
时 代码 体积 在 减 小 ; 而 open64 编译 器 性 能 改进 的 同时 代码 体积 在 不 断 增 加 ,O3 和 OL 结果 
相 比 ,代码 体积 增加 接近 50% 。 

(4) 对 于 编译 器 使 用 者 来 讲 , 要 根据 实际 应 用 需要 和 优化 目标 来 选取 合适 的 编译 器 和 
编译 选项 。 

(5) 对 于 编译 器 开发 人 员 来 讲 , 则 要 根据 编译 器 的 使 用 场合 和 优化 需求 来 设计 合适 的 
优化 功能 。 

编译 器 的 优化 不 管 在 哪个 阶段 ,为 了 尽 可 能 达到 全 局 最 优 . 都 需要 对 尽 可 能 大 的 程序 单 
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元 实施 优化 。 然 而 ,现实 情况 是 很 难 将 一 个 软件 作为 整体 来 实施 优化 。 依 据 所 涉及 的 程序 
范围 ,优化 可 以 分 为 宇和 孔 优化 .局 部 优化 、 超 局 部 优化 、 循 环 优化 过程 内 全 局 优化 和 过 程 间 
优化 等 不 同 的 级 别 。 本 书 只 介绍 其 中 部 分 常见 的 窥 孔 优化 、 局 部 优化 、 循 环 优化 和 全 局 优化 
方法 的 基本 原理 。 


10.3.1 RILE 


窥 孔 优化 是 指 在 语句 /指令 序列 上 滑动 一 个 包含 几 条 语句 /指令 的 窗口 ( 称 为 窥 孔 ) ,发 
现 其 中 不 够 优化 的 语句 /指令 序列 ,用 一 段 更 有 效 的 序列 来 蔡 代 它 ,使 整个 代码 得 到 改进 。 
以 下 举例 说 明 几 种 常见 的 窥 孔 优化 。 

1. 删除 宛 余 的 “ 取 ” 和 “ 存 ” 

对 于 下 列 MIPS 指令 序列 : 

(1) lw $t2, 5( $13) /* 取 地 址 $ t3 十 5 中 的 字 到 寄存 器 $t2 */ 

(2) sw $t2, 5($t3) /* 将 寄存 器 $t2 的 字 写 人 地址 为 $t3 十 5 内 存单 元 / 
可 优化 为 

(1) lw $t2, 5($t3) /* 取 地 址 $t3 十 5 中 的 字 到 寄存 器 $t2 * / 

需要 注意 的 是 ,安全 实施 这 个 变换 的 前 提 条 件 是 这 两 条 语句 必须 在 一 个 基本 块 内 。 因 
为 ,如 果 语 句 (2) 前 有 标号 , 则 不 能 保证 (1) 总 是 在 (2) 前 执行 ,就 不 能 把 (2) 优 化 掉 。 

2. 常量 合并 

对 于 下 列 TAC 语句 : 

(1) r2 :一 3x 2 
可 优化 为 

(1) r2 :一 6 

3. 常量 传播 

对 于 下 列 TAC 语句 序列 : 

(1) r2 :=4 

(2) r3 :一 rl 十 r2 
可 将 其 优化 为 

(1) r2 :一 4 

(2) r3 :一 r1 十 4 

这 里 值得 注意 的 是 ,虽然 优化 后 语句 的 条 数 未 减少 ,但 若是 知道 r2 不 再 活跃 时 ,可 进 一 
步 删 除 (1) 。 

4. 代数 化 简 

对 于 下 列 语句 序列 : 

(1) x :一 x 十 0 


(n) yt=y*l 
可 将 其 中 的 (1) 和 (z) 在 窥 孔 优化 时 直接 删 掉 。 
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5. 控制 流 优化 

对 于 下 列 跳 转 语句 序列 : 
goto L1 

Li: 
goto L2 


goto L2 
Lis 
goto L2 
hg BEE EU Fe «CA FF BAB EAS BEL IE A HY A O A ARERR 
6. KKB MR 
AL IY BY VA All FD SE FL HE eH RE E ES. BA A EA FAREY A 
debug := false 
if (debug) print … 


可 将 其 蔡 换 为 
debug :一 false 


7. 强度 削弱 

有 时 可 以 适当 改变 运算 强度 来 改进 代码 执行 效率 。 例 如 , 当 看 到 下 列 TAC 语句 序列 ， 

x :一 2.0*f 
可 将 其 替换 为 

x :一 { 十 {f 

当 看 到 下 列 TAC 语句 序列 : 

x :一 f/ 2.0 
可 将 其 替换 为 

x :一 fx 0.5 

8. 使 用 目标 机 惯用 指令 

有 时 ,还 可 以 针对 目标 机 的 特点 用 惯用 指令 来 代替 代价 较 高 的 指令 ,例如 , 某 个 操作 数 
与 1 相 加 ,通常 用 “加 1” 指令 ,而 不 是 用 “加 ”指令 ; 某 个 定点 数 乘 以 2, 可 以 采用 “ 左 移 ” 指 
令 ; 而 除 以 2, 则 可 以 采用 “ 右 移 ”指令 ,等 等 ; 再 例如 ,对 于 多 媒体 处 理 ,可 以 使 用 并 行 加 或 
者 并 行 比较 等 指令 。 

以 上 列举 了 窥 孔 优化 的 昌 型 类 别 ,每 个 类 别 仅 给 出 了 少量 例子 。 例 子 虽然 是 以 特定 层 
次 的 代码 表示 形式 给 出 的 ,但 其 思路 并 不 限于 那个 层次 的 代码 。 许 多 窥 孔 优化 策略 同时 适 
用 于 多 种 代码 层次 ,如 AST 层 `.TAC 层 .目标 代码 层 等 。 


10.3.2 局 部 优化 


局 部 优化 指 的 是 在 一 个 基本 块 范围 内 进行 的 优化 。 常 见 的 局 部 优化 有 常量 传播 ,常量 
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合并 、 删 除 公 共 子 表达 式 、 复 写 传播 \ 删 除 无 用 赋值 .代数 化 简 等 。 

基本 块 内 的 许多 优化 也 可 以 看 作 是 将 基本 块 作为 窗口 的 窥 孔 优化 ,但 所 采用 的 优化 算 
法 可 以 比 传统 的 窥 孔 优化 ( 仅 限 于 扫描 当前 语句 的 前 后 ) 更 复杂 或 适用 性 更 强 。 本 节 通 过 例 
子 介绍 一 种 借助 于 构造 基本 块 有 向 无 圈 图 (简称 DAG 图 ,Directed Acyclic Graph) 进 行 局 
部 优化 的 方法 。 例 子 中 的 基本 块 由 TAC 语句 组 成 。 

为 简化 描述 , 仅 考 虑 以 下 3 种 形式 的 TAC 语句: 原子 表达 式 赋值 语句 A =B; 一 元 运 
算 表达 式 赋值 语句 A =op B; 二 元 运算 表达 式 赋值 语句 A =B op C。 这 里 ,A 是 变量 ， 
B 和 C 可 以 是 变量 或 者 常量 。 基 本 块 的 DAG 图 中 ,每 个 结 点 都 带 有 标记 (运算 符 、 变 量 名 字 
或 常量 ), 有 向 边 由 基本 块 内 的 TAC 语句 确定 。 图 10. 10 表示 三 类 TAC 语句 对 应 的 DAG 子 
图 ,分 别 有 一 个 结 点 ` 两 个 结 点 和 三 个 结 点 ,有 向 边 的 方向 通过 图 中 不 同 的 位 置 体现 ,高 处 结 点 
的 计算 依赖 于 低 处 的 结 点 。 在 每 个 这 样 的 子 图 中 ,高 处 的 结 点 称 为 父 结 点 , 低 处 的 结 点 称 为 子 
结 点 , 子 结 点 之 间 互 称 兄弟 结 点 ,两 个 兄弟 结 点 的 位 置 处 于 同一 高 度 。 对 应 于 一 元 运算 和 二 元 
运算 的 子 图 ,也 将 运算 符 标 记 在 父 结 点 上 。 基 本 块 的 DAG 图 是 由 这 3 类 子 图 组 成 的 。 因 为 只 
有 从 高 到 低 的 依赖 关系 ,所 以 DAG 图 是 一 种 有 向 无 圈 图 , 即 图 中 任 一 通路 都 不 是 环 路 。 


TAC 语 句 A=B A:=0p B A:=BopC 
4 (m) 4 
DAG 子 图 人 A op, op 
/ 
i © @, 
B \ B/ C 
\ / 
运算 符 标记 


运 
图 10. 10 =% TAC 语句 对 应 的 DAG FA 


DAG 图 中 ,不 依赖 于 任何 结 点 的 结 点 为 叶 结 点 ,其 他 结 点 为 内 部 结 点 。 在 上 面 所 定义 
的 DAG 图 中 , 叶 结 点 代表 名 字 的 初 值 ,以 唯一 的 变量 名 字 或 常数 来 标记 ,为 避免 混乱 ,用 zx。 
表示 变量 名 字 x 的 初 值 。DAG 图 的 内 部 结 点 都 标记 有 相应 的 运算 符 。 所 有 结 点 都 可 有 一 
个 附加 的 变量 名 字 表 。 对 于 只 含 上 述 3 类 TAC 语句 的 基本 块 来 说 ,其 DAG 图 的 内 部 结 点 
至 少 会 附加 一 个 变量 名 字 。 下 面 描述 此 类 基本 块 的 DAG 图 构造 算法 。 

设 z := 一 > op zsz :一 op yst :一 y 分 别 为 第 1.2.3 种 TAC 语句 。 设 函数 node(name) 
返回 最 近 创 建 的 关联 于 name 的 结 点 。 首 先 , 置 DAG 图 为 空 。 对 基本 块 的 每 一 TAC 语句 ， 
依次 进行 下 列 步骤 : 

(1) 若 node(y) 无 定义 , 则 创建 一 个 标记 为 y 的 叶 结 点 ,并 令 node(y) 为 这 个 结 点 ; 对 
第 1 种 语句 , 若 node(z) 无 定义 ,再 创建 标记 为 x 的 叶 结 点 ,并 令 node(z) 为 这 个 结 点 。 

(2) 对 于 第 1 种 语句 , 若 node(y) 和 node(z) 都 是 标记 为 常数 的 叶 结 点 ,执行 y op =, 令 
得 到 的 新 常数 为 p; 车 node(p) 无 定义 , 则 构造 一 个 用 p 做 标记 的 叶 结 点 n。 若 nodeCy) ak 
node(x) 是 处 理 当前 语句 时 新 构造 出 来 的 结 点 , 则 删除 它 ; 置 node(p) 二 n。 这 一 步 起 到 常 
量 合并 的 作用 。 若 node(y) 或 node(z) 不 是 标记 为 常数 的 叶 结 点 , 则 检查 是 否 存在 某 个 标 
记 为 op 的 结 点 ,其 左 孩 子 是 node(y) ,而 右 孩 子 是 node(=)? 若 不 存在 , 则 创建 这 样 的 结 点 。 
无 论 存 在 或 不 存在 ,都 令 该 结 点 为 n。 这 一 步 有 可 能 起 到 删除 公共 子 表达 式 的 作用 。 

O 对 于 第 2 种 语句 ,车 node(y) 是 标记 为 常数 的 叶 结 点 ,执行 op y, 令 得 到 的 新 常数 
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Wop. F node(p) 无 定义 , 则 构造 一 个 用 p 做 标记 的 叶 结 点 n。 若 node(y) 是 处 理 当前 语句 
时 新 构造 出 来 的 结 点 , 则 删除 它 ; 置 node(p) = 二 n。 这 一 步 起 到 常量 合并 的 作用 。 若 
node(y) 不 是 标记 为 常数 的 叶 结 点 , 则 检查 是 否 存 在 某 个 标记 为 op 的 结 点 ,其 唯一 的 孩子 
是 否 为 node(y)? 若 不 存在 , 则 创建 这 样 的 结 点 。 无 论 存在 或 不 存在 ,都 令 该 结 点 为 n。 这 
一 步 有 可 能 起 到 删除 公共 子 表达 式 的 作用 。 

(4) 对 于 第 3 种 语句 , 令 node(y) 为 n。 

(5) 最 后 ,从 node(z) 的 附加 标识 符 表 中 将 z 删除 ,将 其 添加 到 结 点 n 的 附加 变量 名 字 
表 中 ,并 置 node(z) 为 n。 这 一 步 起 到 删除 无 用 赋值 的 作用 .。 

考虑 由 下 列 TAC 语句 序列 构成 的 基本 块 : 


(1) To :一 3. 14 
(2) T1 :一 2* TO 
(3) T2 :一 R 十 r 
(4) A:=T1* T2 
(5) B:=A 

(6) T3 :=2 * TO 
(7) T4 :一 R 十 r 
(8) T5 :=T3* T4 
(9) T6 :一 R 一 上 


(10) B :=T5 * T6 

该 基本 块 DAG 图 的 构造 过 程 如 图 10.11 所 示 。 顺 序 处 理 每 条 TAC 语句 后 形成 的 子 
图 分 别 如 图 10. 11(a) 一 Gj) 所 示 。 

如 前 所 述 ,在 一 个 基本 块 被 构造 成 相应 的 DAG 图 的 过 程 中 ,实际 上 已 经 进行 了 一 些 基 
本 的 优化 工作 。 而 后 ,可 由 DAG 图 重新 生成 原 基本 块 的 一 个 优化 的 语句 序列 。 

例如 ,将 如 图 10. 110j) 所 示 的 DAG 图 按 其 结 点 构造 的 顺序 重新 写成 TAC 语句 ,得 到 
如 下 TAC 语句 序列 ， 


(1) To :一 3. 14 

(2) T1 *=6, 28 
(3) T3 :一 6. 28 
(4) T2 :一 R 十 r 
(5) T4 :=T2 

(6) A :=6. 28 * T2 
(7) T5?=A 

(8) T6 *=R-r 


(9) B?=A* T6 
将 这 个 结果 和 原 基本 块 的 语句 序列 相 比 ,可 以 看 出 : 
(1) 原来 的 语句 (2) 和 (6) 中 的 常量 已 合并 。 这 些 常量 合并 的 过 程 实际 上 穿插 了 常量 传 
播 : 语句 (1) 是 TO 的 定 值 点 ,其 值 是 一 个 常数 ,T0 的 值 可 以 到 达 这 个 基本 块 的 出 口 点 ,而 且 
在 本 基本 块 中 没有 其 他 TO 的 定 值 点 ,因此 ,本 基本 块 中 所 有 TO 的 值 都 相等 且 为 常数 ,这 种 
情况 下 可 以 用 常数 来 取代 语句 (1) 之 外 的 所 有 TO. 
"3 


Os Or Or See 


3.14 3.14 6.28 3.14 6.28 Ro ro 


3.14 628 Ro ro 3.14 628 R ro 


Os 


3.14 6.28 


3.14 628 Ro ro 3.14 628 R ro 3.14 6.28 Ry ry 
(h) (i) @ 
图 10.11 h TAC 语句 序列 构造 DAG 图 


(2) 原来 的 语句 (5) 中 的 无 用 赋值 已 被 删除 。 

(3) 原来 的 语句 (3) 和 (7) 中 的 公共 子 表达 式 Rr 只 被 计算 一 次 , 即 删 除了 多 余 的 公共 
子 表达 式 。 

(4) 形成 结果 中 复写 语句 (5) 和 (7) 的 过 程 能 提供 复写 传播 的 机 会 。 例 如 ,在 形成 结果 
中 的 语句 (7), 即 复写 语句 T5 :二 A 时 ,基本 块 内 剩余 语句 中 没有 其 他 语句 为 T5 定 值 , 因 
此 ,在 这 些 语句 中 均 可 以 用 A 来 代替 T5。 结 果 , 原 来 的 语句 (10), 即 B:=T5 * T6 最 终 被 
替换 为 结果 中 的 语句 (9) 。 这 种 情况 下 ,如 果 在 基本 块 出 口 处 T4 和 TS 不 再 活跃 ,那么 就 可 
以 将 (5) 和 (7) 两 条 复写 语句 删除 。 

所 以 ,结果 TAC 语句 序列 构成 的 基本 块 是 原先 基本 块 的 一 个 优化 。 

顺便 提 及 一 点 ,除了 可 应 用 于 基本 块 内 的 优化 外 ,DAG 图 还 能 体现 出 某 些 有 用 的 数据 
流 信 息 。 例 如 ,在 基本 块 外 被 定 值 并 在 基本 块 内 被 引用 的 所 有 标识 符 , 就 是 作为 叶子 结 点 上 
标记 的 那些 标识 符 ; 在 基本 块 内 被 定 值 且 该 值 能 在 基本 块 后 被 引用 的 所 有 标识 符 ,就 是 
DAG 图 各 结 点 上 的 那些 附加 标识 符 。 
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10.3.3 循环 优化 


循环 优化 是 对 循环 中 的 代码 进行 的 优化 。 循 环 内 的 指令 是 重复 执行 的 ,对 于 大 多 数 应 
用 程序 来 讲 , 循 环 部 分 的 执行 时 间 在 整个 程序 执行 时 间 中 所 占 的 比重 非常 大 ,因此 针对 循环 
的 优化 通常 是 最 值得 关注 的 部 分 。 有 大 量 关 于 循环 优化 的 研究 成 果 和 实用 算法 ,限于 篇 幅 ， 
本 节 仅 介绍 最 基本 的 两 类 循环 优化 : 代码 外 提 与 归纳 变量 的 删除 。 


10.3.3.1 代码 外 提 


减少 循环 中 代码 数目 的 一 个 重要 办 法 是 代码 外 提 (loop-invariant code motion) 。 这 种 
变换 把 所 谓 的 循环 不 变量 ( 即 产生 的 效果 独立 于 循环 执行 次 数 的 表达 式 计算 ) 放 到 循环 的 前 
面 。 这 里 ,所 讨论 的 循环 只 存在 一 个 和 人口 。 

借助 于 UD 链 可 以 查找 循环 不 变量 。 例 如 ,对 于 循环 内 部 的 语句 := 一 > 十 x, 若 > 和 > 
的 定 值 点 都 在 循环 外 , 则 x := 十 = 为 循环 不 变量 。 

实行 代码 外 提 时 ,在 循环 的 入 口 结 点 前 面 建立 一 个 新 结 点 (基本 块 ) , 称 之 为 循环 的 前 置 
结 点 。 循 环 的 前 置 结 点 以 循环 的 入 口 结 点 为 其 唯一 后 继 , 原 来 流 图 中 从 循环 外 引 到 循环 人 


口 结 点 的 有 向 边 , 改 成 引 到 循环 前 置 结 点 ,如 H 
图 10. 12 所 示 。 由 于 入 口 结 点 是 唯一 的 ,所 以 ,前 前 置 结 点 
置 结 点 也 是 唯一 的 。 循 环 中 外 提 的 代码 将 全 部 提 “LE } | f 
至 前 置 结 点 中 。 入 口 结 点 入 口 结 点 
考查 图 10. 13(a) 基 本 块 B,, 它 自身 构成 一 个 : : 
循环 ,可 以 知道 其 中 bb 和 <。 的 定 值 点 都 在 循环 外 ， | 。 ATE wen 


表明 不 管 基本 块 执行 多 少 次 ,b 和 。 的 值 都 不 会 网 10 19 RRIHEN 
改变 。 因 此 ,tl :二 bx 是 循环 不 变量 。 把 这 个 

循环 不 变量 外 提 , 得 到 图 10. 13(b) 所 示 的 流 图 。 不 难看 出 ,图 10. 13 的 两 个 流 图 有 相同 的 
计算 结果 。 


EE 


(Di=l |B, 
Wit jB @ t=" | B; 
| 天 | | 
B,| (2) tl:=b*c B, EN 
(3) 12:1 a t2:t1 i 
(4) B=t2+d is 
Oise O inl 
(6) if i<=100 goto(2) (6) if i<=100 goto(2) 


| | 


(a) (b) 
图 10.13 循环 不 变量 代码 外 提 


是 否 在 任何 情况 下 都 可 把 循环 不 变量 外 提 呢 ? 再 看 一 个 例子 。 
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考察 图 10. 14(a) 的 流 图 。 容 易 看 出 {B: ,Bs ,B,} 是 循环 ,其 中 Bs 是 循环 的 人 口 结 点 ,B 
是 出 口 结 点 。 所 谓 出 口 结 点 ,是 指 从 该 结 点 有 一 条 有 向 边 引 到 循环 外 的 某 个 结 点 。 


(Di=l |B, 
| | 
(i=l |B, G)i=2 |B; 
B, | Be 1 
(2) ifx<y goto B; (2) ifx<y goto B, 
1 | B, 1 | B; 
Oi |P ()y=y-1 E | (5)y=y-1 
(4) x:=x+1 (6) if y<=20 goto Bs d (6) if y<=20 goto B5 
(Dj=i |B; (jsi | Bs 


(a) (b) 
图 10.14 含 循环 不 变量 但 不 符合 外 提 条 件 的 流 图 


By 中 i:=2 是 循环 不 变量 。 假 如 把 i :=2 提 到 循环 的 前 置 结 点 Bz 中 ,如 图 10. 14(b) 所 
示 。 若 按 此 程序 流 图 ,执行 完 Bs 时 ,i 的 值 总 为 2, 则 j 的 值 也 为 2。 事实 上 , 按 图 10. 14(a) 
的 流 图 , 若 x=30.y=25, SW Bs 不 被 执行 ,执行 完 B; 时 ,i 和 j 的 值 都 为 1, 所 以 图 10. 14(b) 
的 流 图 改变 了 原来 程序 的 运行 结果 。 

问题 的 原因 在 于 B 不 是 循环 出 口 结 点 B 的 必 经 结 点 。 所 以 , 当 把 一 个 循环 不 变量 提 
到 循环 的 前 置 结 点 时 ,要 求 该 循环 不 变量 所 在 的 结 点 是 循环 所 有 出 口 结 点 的 必 经 结 点 。 此 
外 ,如 果 循 环 中 i 的 所 有 引用 点 只 是 Be 中 i 的 定 值 点 所 能 达到 的 ,i 在 循环 中 不 再 有 其 他 定 
值 点 ,并 且 出 循环 后 不 再 引用 该 i 的 值 ,那么 ,即使 B 不 是 B 的 必 经 结 点 ,也 还 是 可 以 把 i :=2 
提 到 B 中 ,因为 这 不 影响 原来 程序 的 运行 结果 。 

综 上 所 述 ,可 总 结 出 循环 不 变量 代码 外 提 的 一 个 充分 条 件 。 以 不 变量 x :=y 十 z WH, 
该 条 件 可 以 叙述 为 ， 

(1) 所 在 结 点 是 循环 的 所 有 出 口 结 点 的 支配 结 点 。 

(2) 循环 中 其 他 地 方 不 再 有 x 的 定 值 点 。 

(3) 循环 中 x 的 所 有 引用 点 都 是 上 且 仅 是 这 个 定 值 所 能 达到 的 。 

(4) 若 y 或 z 是 在 循环 中 定 值 的 , 则 只 有 当 这 些 定 值 点 的 语句 (一 定 也 是 循环 不 变量 ) 
已 经 在 之 前 被 执行 过 代码 外 提 。 

或 者 ,在 满足 上 述 第 (2) 一 (4) 条 的 前 提 下 ,将 第 (1) 条 替换 为 : 

(5) x 在 离开 循环 之 后 不 再 是 活跃 的 。 

注意 : 如 果 把 满足 条 件 (2) 一 (5) 而 不 满足 条 件 (1) 的 循环 不 变量 x :二 y 十 z 外 提 到 前 置 
结 点 中 ,那么 ,执行 完 循环 后 得 到 的 x 值 ,可 能 与 不 进行 外 提 的 情形 所 得 x 值 不 同 。 但 因为 
离开 循环 后 不 会 引用 该 x 值 ,所 以 不 影响 程序 运行 结果 。 
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根据 以 上 讨论 ,本 节 给 出 一 个 循环 不 变量 代码 外 提 的 算法 : 

(1) 为 所 要 处 理 的 循环 建立 用 于 代码 外 提 的 前 置 结 点 。 

(2) 查看 当前 循环 中 各 基本 块 的 每 条 TAC 语句 ,如 果 发 现 某 个 循环 不 变量 ,并 且 该 循 
环 不 变量 符合 上 述 代码 外 提 的 充分 条 件 ,那么 就 将 它 插入 到 前 置 结 点 的 尾部 , 即 作为 前 置 结 
点 的 最 末 一 条 语句 ,并 将 该 语句 从 当前 循环 中 删除 。 

(3) 重复 以 上 第 (2) 步 的 工作 ,直至 当前 循环 中 (不 包括 前 置 结 点 ) 已 不 存在 任何 符合 外 
提 充 分 条 件 的 循环 不 变量 为 止 。 


10.3.3.2 归纳 变量 的 删除 


通过 强度 削弱 和 变换 循环 控制 条 件 , 经 常会 带 来 循环 中 归纳 变量 的 优化 使 用 甚至 可 以 
将 其 删除 。 

首先 介绍 基本 归纳 变量 和 归纳 变量 的 含义 。 如 果 循 环 中 对 变量 工具 有 唯一 的 形 如 
I :=T 士 C 的 赋值 , 且 其 中 C 为 循环 不 变量 , 则 称 工 为 循环 中 的 基本 归纳 变量 。 如 果 工 是 循 
环 中 的 基本 归纳 变量 ,J 在 循环 中 的 定 值 总 是 可 以 化 归 为 工 的 同一 线性 函数 , 即 J =C, x I 
C ,其 中 C ALC, 都 是 循环 不 变量 , 则 称 为 归纳 变量 ,并 称 它 与 1 同族 。 显 然 ,基本 归纳 变 
量 也 是 归纳 变量 。 

一 个 基本 归纳 变量 除 用 于 自身 的 递归 定 值 外 ,往往 只 在 循环 中 用 来 计算 其 他 归纳 变量 
以 及 用 来 控制 循环 的 进行 。 这 时 就 可 以 用 与 循环 控制 条 件 中 的 基本 归纳 变量 同族 的 某 一 归 
纳 变量 来 替换 它 。 进 行 这 些 变 换 后 ,常常 会 伴随 着 可 将 基本 归纳 变量 的 递归 定 值 作为 无 用 
赋值 而 删除 。 此 类 变换 往往 也 会 带 来 运算 强度 的 削弱 ,如 将 乘法 转换 成 加 法 。 循 环 内 部 的 
强度 削弱 通常 是 非常 有 价值 的 优化 。 

下 面 考察 图 10. 15(a) 的 流 图 ,其 中 基本 块 B, ALB; 构成 循环 。 可 以 看 出 ,x 是 循环 中 的 
一 个 基本 归纳 变量 ,而 i 是 一 个 与 x 同族 的 归纳 变量 。 因 为 基本 归纳 变量 由 x :二 x 十 2 定 
值 ,所 以 可 以 把 同族 归纳 变量 的 计算 i :二 3x x 化 归 为 i:=i 二 6, 也 算是 一 种 强度 削弱 。 这 
样 ,循环 控制 条 件 x 二 100 可 变换 为 :二 300。 变 换 后 的 流 图 如 图 10.15(b) 所 示 。 


! 1 
(NiO |B, (Di=0 |B, _ |B, 
(2) x:=0 (2) x:=0 (Di=0 
B, 1 1 B, DE: B, | 
(3) ifx<100 goto B, (3) if i<300 goto B; | GJifi<300 goto B; 
! f t 
(A) x:=x+2 (A) x:=x+2 N 
B; | (5) i:=3*x B;| (5) i=i+6 B, © iz fad 
(6) goto B (6) goto B> ) goto Bz 
| 1 1 
ji | By (Dj=i | By Dj |B, 
1 ! 1 
(a) (b) © 


图 10.15 归纳 变量 的 删除 
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假如 基本 归纳 变量 x 在 图 10. 15(a) 的 循环 中 只 用 于 计算 归纳 变量 i 和 控制 循环 执行 ， 
当 离开 循环 时 就 不 活跃 了 。 那 么 ,在 图 10. 15(b) 的 循环 中 ,基本 归纳 变量 x 的 递归 定 值 就 
变 为 了 无 用 赋值 。 删 除 基 本 块 B 和 Bs x 的 无 用 赋值 ,就 得 到 如 图 10. 15(c) 所 示 的 流 
图 。 结 果 , 实 现 了 对 循环 中 基本 归纳 变量 x 的 彻底 删除 。 


10.3.4 全 局 优化 


过 程 内 全 局 优化 (简称 为 全 局 优化 ) 是 在 一 个 程序 过 程 (C 语言 中 称 为 函数 ,在 不 引起 误 
解 的 情况 下 统称 为 过 程 ) 范 围 内 进行 的 优化 。 

前 面 介 绍 过 的 常量 传播 .常量 合并 、 删 除 公 共 子 表达 式 、 复 写 传播 .控制 流 优 化 和 删除 无 
用 赋值 等 都 是 可 用 于 不 同 范围 的 优化 方法 ,也 可 以 用 到 跨越 多 个 基本 块 的 全 局 优化 当中 ,其 
关键 点 在 于 确定 相关 变量 的 使 用 情况 。 

考虑 10. 3. 2 节 中 经 过 构造 DAG 图 进行 局 部 |a) to: 


3.14 (DT2:=Rotm 
优化 的 例子 ,其 优化 后 的 结果 如 图 10. 16 Ca) @ Aredia 
所 示 。 (4)  B:A*T6 


通过 跟踪 基本 块 之 间 的 变量 使 用 信息 ,如 果 能 
够 判定 在 该 基本 块 出 口 处 TO, T1, T2, T3, T4 和 
T5 均 不 是 活跃 变量 ,而 A 和 了 是 活跃 变量 ,那么 就 | (9) B:-A*T6 
可 以 断定 图 10. 16 中 语句 (1)、(2)、(3)、(5) 和 (7) w 局 部 优化 结果 (b) 删除 无 用 赋值 
的 定 值 点 的 DU 链 均 为 空 集合 ,也 就 是 说 这 些 定 值 
点 的 赋值 都 是 无 用 的 。 删 除 这 些 无 用 赋值 ,优化 之 
后 的 结果 如 图 10. 16 (b) ,其 优化 效果 相当 明显 。 这 便 是 使 用 流 图 范围 内 的 数据 流 信 息 
(DU 链 ) 进 行 全 局 删除 无 用 赋值 的 结果 。 

回 到 本 章 开头 图 10. 1(a) 的 一 段 三 地 址 码 程序 ,该 程序 计算 一 个 以 16 的 阶乘 为 半径 的 
圆 的 周 长 ,然后 输出 结果 。 为 方便 ,将 其 重 现 于 图 10. 17(a) 。 从 入 口 指令 开始 ,将 代码 分 为 
4 个 基本 块 : BB1、BB2、BB3 和 BBA. WA 10.1 (b) 所 示 。 它 们 构成 的 流 图 如 图 10. 2 所 示 。 

通过 分 析 基 本 块 内 部 以 及 基本 块 之 间 的 变量 使 用 信息 ,可 以 知道 ,原始 代码 中 变量 pi 
的 定 值 点 是 语句 (1) ,其 DU 链 上 唯一 的 引用 点 是 语句 (9) ,因此 可 以 开展 全 局 的 常量 传播 优 
化 ,结果 如 图 10.17(b) 所 示 。 

常量 传播 之 后 ,出 现 了 新 的 优化 机 会 ,这 时 语句 (9) 是 两 个 常数 的 运算 ,因此 可 以 开展 常 
量 合并 的 优化 ,其 结果 如 图 10. 17(c) 所 示 。 

这 时 ,进一步 的 常量 传播 ,可 以 得 到 如 图 10.17(d) 所 示 的 结果 。 

图 10.17(d) 中 语句 (2)、(9) 和 (10) 都 是 变量 ar 的 定 值 点 ,但 定 值 点 (2)、(9) 的 DU 链 都 
是 空 集 ,因而 它们 是 无 用 赋值 。 类 似 地 ,也 可 以 确定 图 10. 17(d) 中 语句 (1) 中 对 pi 定 值 也 是 
无 用 赋值 。 图 10. 17(d) 中 用 下 划 线 将 这 些 无 用 赋值 进行 了 标记 。 删 除 无 用 赋值 ,优化 之 后 
的 结果 如 图 10. 17(e) 所 示 。 

常量 合并 是 在 编译 过 程 中 进行 的 计算 ,通过 编译 期 间 来 获得 目标 程序 的 结果 ,从 而 缩短 
所 生成 目标 代码 的 运行 时 间 。 更 进一步 ,上 面 讨论 的 图 10. 17 的 实例 程序 ,该 程序 在 执行 过 
程 中 不 需要 任何 输入 数据 ,所 有 参与 运算 的 值 都 是 已 知 的 ,因此 这 个 程序 的 最 终结 果 ar 的 
值 完全 可 以 在 编译 过 程 中 静态 地 确定 。 事 实 上 ,很 多 编译 器 会 进行 类 似 的 优化 , 称 为 编译 过 
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图 10.16 利用 全 局 数据 流 信息 进行 优化 


(1) pi=3.14 (D pi:=3.14 (D) pi:=3.14 

(2) ar:=0.0 (2) — ar:=0.0 (2) ar:=0.0 

(3) m=16 (3) n=16 (3) n=16 

(4) msl (4) ml (4) r=l 

(5) jlen1(9) (5) jlen1(9) (5) jlen1(9) 

(6) rsr*n (6)  r=r*n (6) rsr*n 

(7) n=n-1 (7) n=n-1 (7) msn-l 

(8) goto (5) (8) goto (5) (8) goto (5) 

(9) ar:=2*pi (9) ar:=2*3.14 (9) ar:=6.28 

(10) ars=ar*r (10) ar:=ar*r (10) ar:=ar*r 

(11) print ar (11) print ar (11) print ar 
(a) 原始 代码 (b) 全 局 常量 传播 (©) 常量 合并 

u) (1) m=16 (1) print 12586308608.0 

(2) (2) msl 

(3) h (3) jlen1(7) 

(4) rsl (4) m=r*n 

(5) jlen1(9) (5) m=n-1 

(6) r:=r*n (6) goto (3) 

(7) m=n-1 (7) ar:=6.28*r 

(8) goto (5) (8) print ar 

(9) ar:=6,28 

(10) ar:=6.28*r 

(11) print ar 

(d) 局 部 常量 传播 (©) 全 局 删除 无 用 赋值 (静态 计算 


图 10.17 实例 程序 的 全 局 优化 


程 中 进行 计算 (computation during compilation) 优 化 。 经 过 这 样 的 优化 ,整个 程序 可 以 改 
写 为 图 10. 17(D) 的 样子 。 所 有 的 计算 工作 都 已 经 在 编译 过 程 中 完成 了 ,程序 最 终 运 行 的 工 
作 仅 仅 是 结果 输出 。 


10.4 目标 代码 生成 技术 


编译 过 程 最 后 阶段 的 工作 是 生成 目标 体系 结构 的 汇编 语言 代码 或 机 器 语言 代码 。 通 常 
情况 下 ,我 们 面 对 的 是 真实 的 处 理 器 体系 结构 ,如 X86, MIPS, ARM 以 及 PowerPC 等 。 然 
而 ,有 时 也 指 特定 的 虚拟 机 结构 ,如 Java 虚拟 机 (JVMD) 以 及 本 书 中 的 类 P-code 虚拟 机 。 

由 于 和 目标 机 环境 密切 相关 ,所 以 生成 目标 代码 时 需要 从 人 逻辑 上 考虑 清楚 程序 中 的 代 
码 和 数据 是 如 何 映射 到 运行 时 的 虚拟 存储 空间 中 的 : 常量 或 全 局 量 将 映射 到 静态 数据 区 ; 
代码 将 映射 到 代码 存放 区 ; 局 部 数据 和 临时 数据 的 组 织 则 是 体现 在 所 生成 代码 的 指令 中 ， 
运行 时 将 被 存放 在 寄存 器 或 动态 数据 区 的 内 存单 元 。 编 译 器 应 将 这 些 目标 代码 和 数据 以 约 
定 的 形式 准备 好 ,将 来 由 链接 和 装 入 程序 加 载 到 目标 平台 。 或 者 ,如 果 编 译 器 生成 的 是 汇编 
代码 , 则 在 运行 链接 和 装 和 人 程序 之 前 还 需要 由 汇编 器 先生 成 可 重 定位 的 (relocatable) 机 器 
语言 程序 。 

目标 代码 生成 技术 的 核心 问题 主要 包括 指令 选择 (instruction selection) 寄存 器 分 配 
(register allocation) 与 指令 调度 (code scheduling)。 这 些 问题 车 是 考虑 最 优化 目标 ,那么 各 
自 都 是 非常 难 解 的 问题 ,更 不 用 说 将 它们 统一 考虑 的 多 目标 优化 问题 。 因 此 ,在 实际 中 , 目 
标 代 码 生成 的 算法 多 是 启发 式 的 。 本 书 的 定位 是 使 读者 了 解 目标 代码 生成 的 基本 过 程 ,不 
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去 深入 探究 目标 代码 生成 过 程 中 的 优化 问题 。 

本 节 首 先 介绍 目标 代码 生成 的 主要 环节 (指令 选择 .寄存 器 分 配 与 指令 调度 ) 的 基本 过 
程 以 及 它们 之 间 的 关联 。 然 后 ,讨论 基本 块 范围 内 的 一 些 具体 做 法 ,包括 一 个 简单 的 代码 生 
成 过 程 以 及 高 效 使 用 寄存 器 等 内 容 。 接 着 .简要 介绍 图 着 色 全 局 寄存 器 分 配 算法 的 基本 思 
想 。 最 后 是 关于 PL/0 编译 器 目标 代码 生成 程序 的 基本 结构 。 


10.4.1 目标 代码 生成 的 主要 环节 
10.4.1.1 指令 选择 


所 谓 指 令 选择 ,就 是 为 每 条 中 间 语 言语 句 选 择 恰当 的 目标 机 指令 或 指令 序列 。 这 里 ,中 
间 语 言语 句 泛 指 中 间 表 示 的 一 个 独立 的 操作 ,如 在 三 地 址 码 中 指 一 条 TAC 语句 ,而 在 树 形 
中 间 表 示 中 则 指 其 结 点 所 代表 的 一 个 独立 操作 。 

指令 选择 的 原则 首先 是 要 保证 语义 的 一 致 性 。 若 目标 机 指令 系统 比较 完备 , 则 可 以 很 直 
接地 (在 不 考虑 执行 效率 的 情形 下 ) 为 中 间 语 言语 句 找到 语义 一 致 的 指令 序列 模板 。 例 如 , 针 
对 某 种 具有 CISC 特征 的 计算 机 体系 结构 ,TAC 语句 a :一 b 十 c 可 转换 为 如 下 汇编 代码 序列 ， 


MOV b, RO /* b 装 人 寄存 器 RO */ 
ADD R0,c /* c 加 到 RO */ 
MOV Ro,a /* 存 RO 的 内 容 到 a * / 


其 次 要 考虑 所 生成 代码 的 效率 (即时 间 / 空 间 代价 )。 这 并 不 容易 做 到 ,因为 执行 效率 往往 
与 语句 的 上 下 文 以 及 目标 机 体系 结构 (如 流水 线 ) 有 关 。 目 标 机 指令 集 的 性 质 决定 指令 选择 的 
难 易 。 一 个 有 着 丰富 的 目标 指令 集 的 机 器 中 可 以 为 一 个 给 定 的 操作 提供 几 种 实现 方法 。 例 
如 ,考虑 因 不 同 的 寻 址 方式 所 附加 的 指令 执行 代价 。 假 设 每 条 指令 在 操作 数 准 备 好 后 执行 其 
操作 的 代价 均 为 1, 而 是 否 会 有 附加 的 代价 则 要 视 获取 操作 数 时 是 否 访 问 内 存 而 定 ,每 访问 一 
次 内 存 则 增加 代价 1。 由 此 ,以 上 汇编 代码 序列 的 执行 代价 为 6。 同 样 ,代码 序列 

MOV b,a /* 取出 b 的 值 保存 到 a 的 存储 单元 */ 

ADD a,c /* 取出 c 和 a 的 值 , 相 加 结果 保存 到 a 的 存储 单元 * / 


的 执行 代价 也 为 6。 然而 ,如 假定 R1 和 R2 中 已 经 分 别 包 含 了 b Alc 的 值 ,那么 a :一 b 十 c 
也 可 转换 为 下 列 汇编 代码 序列 : 


MOV R1, RO /* 寄存 器 RI 的 内 容 装 入 寄存 器 RO * / 
ADD RO, R2 /* R2 的 内 容 加 到 Ro * / 
MOV Ro,a /* 存 RO 的 内 容 到 a * / 


这 个 代码 序列 的 执行 代价 为 4。 进一步, 如果 已 知 Rl1 和 R 中 已 经 分 别 包 含 了 b 和 < 
的 值 ,并 且 知 道 b 的 值 在 a += b+c 这 个 赋值 以 后 不 再 需要 ,那么 a t= bte 可 以 转换 为 下 列 
汇编 代码 序列 : 
ADD RI, R2 /* R2 的 内 容 加 到 RI */ 
MOV Rl,a /x FR MARE a * / 
该 代码 序列 的 执行 代价 为 3 ,执行 的 效率 明显 提高 ,表明 生成 了 更 优 的 目标 代码 。 
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对 于 执行 代价 的 考虑 ,可 以 不 局 限于 性 能 (执行 周期 数 ) ,还 可 以 考虑 其 他 指标 ,如 代码 
的 尺寸 (条 数 ) 。 

可 以 根据 不 同上 下 文 为 每 条 中 间 语 言语 句 设计 指令 序列 的 模板 ,这 样 可 以 直接 编写 代 
码 生 成 器 (code generator) 实 现 指令 选择 。 此 外 ,人 们 还 提出 了 许多 实现 指令 选择 的 自动 化 
方法 ,从 而 构造 所 谓 的 代码 生成 器 的 生成 器 (code generator’s generator) 。 这 些 方法 中 影响 
较 大 有 BURG 和 Twig 工具 ,它们 都 是 基于 动态 规划 (dynamic programming) 的 方法 ,所 生 
成 的 代码 生成 器 都 是 以 树 形 中 间 表 示 为 输入 ,然后 自动 完成 指令 选择 并 生成 目标 代码 。 

BURG 是 基于 自 下 而 上 重 写 系 统 (Bottum-Up Rewriting Systems, BURS) HU 构造 
的 一 种 有 效 的 代码 生成 器 , 它 在 进行 动态 规划 时 使 用 了 预先 构造 的 一 种 特殊 的 BURS 自动 
机 ,经 历 自 下 而 上 的 标记 过 程 和 自 上 而 下 的 指令 选择 过 程 快速 地 生成 目标 代码 。 

Twig 是 基于 一 种 树 模式 匹配 (tree pattern matching) 方 法 [构造 的 工具 。 给 定 树 模式 
规范 和 相应 的 执行 代价 (cost) , Twig 能 够 生成 一 个 自 上 而 下 的 树 自动 机 ,后 者 能 够 为 树 形 
中 间 表 示 找 到 一 种 最 小 代价 的 覆盖 。 与 BURS 方法 相 比 ,Twig 可 以 在 编译 时 动态 计算 模 
式 的 执行 代价 ,而 BURS 是 在 编译 前 就 已 经 计算 好 这 些 代价 ,因而 灵活 性 和 适应 性 方面 不 
W Twig, BURS 方法 的 优势 是 速度 比较 快 。 


10.4.1.2 寄存 器 分 配 


通常 情况 下 ,指令 在 寄存 器 中 访问 操作 数 的 开销 要 比 在 内 存 中 访问 小 很 多 。 同 时 ,一 些 
像 RISC 这 样 的 体系 结构 往往 要 求 除 loads/stores 之 外 的 指令 都 使 用 寄存 器 操作 数 。 因 此 ， 
在 生成 的 代码 中 , 尽 可 能 多 地 、 有 效 地 利用 寄存 器 非常 重要 。 寄 存 器 分 配 可 以 分 成 分 配 和 指 
派 两 个 阶段 来 考虑 : 

CL) 在 分 配 (allocation) 期 间 ,为 程序 的 某 一 点 选择 驻 留 在 寄存 器 中 的 一 组 变量 。 

(2) 在 随后 的 指派 (assignment) 阶 段 , 挑 出 变量 将 要 驻 留 的 具体 寄存 器 , 即 寄存 器 赋值 。 

寄存 器 分 配 的 原则 是 充分 、 高 效 地 使 用 寄存 器 。 一 方面 ,应 尽量 让 变量 的 值 或 计算 结果 保 
留 在 寄存 器 中 。 另 一 方面 ,不 再 被 引用 的 变量 所 占用 的 寄存 器 应 尽早 释放 ,以 提高 寄存 器 的 利 
用 率 。 选 择 最 优 的 寄存 器 分 配方 案 是 困难 的 。 从 数学 上 讲 , 这 是 NP 完全 问题 。 当 考虑 到 目 
标 处 理 器 硬件 和 操作 系统 可 能 要 求 寄存 器 的 使 用 遵守 一 些 约定 时 ,这 个 问题 将 更 加 复杂 。 因 
此 ,实际 编译 器 中 通常 采用 某 种 启发 式 算法 ,在 尽 可 能 短 的 时 间 内 寻找 一 种 较 优 的 结果 。 

在 基本 块 范围 内 的 寄存 器 分 配 称 为 局 部 寄存 器 分 配 (local register allocation) ,在 过 程 
范围 内 的 寄存 器 分 配 称 为 过 程 级 寄存 器 分 配 (procedure-level register allocation ) 或 全 局 寄 
存 器 分 配 (global register allocation) 。 

寄存 器 是 目标 计算 机 系统 的 紧缺 资源 。CISC 特征 的 体系 结构 中 可 用 于 应 用 程序 的 通 
用 寄存 器 (general purpose register) 很 少 , 如 X86-32(IA32) 有 8 个 通用 寄存 器 。RISC 特征 
的 体系 结构 中 通用 寄存 器 数目 相对 多 一 些 . 如 MIPS-32 有 32 个 通用 寄存 器 。 一 般 情 况 下 ， 
就 是 通用 寄存 器 也 不 能 全 部 用 来 自由 分 配 。 在 寄存 器 分 配 时 ,一定 要 明确 目标 环境 (处 理 器 
和 操作 系统 ) 下 有 关 寄 存 器 使 用 的 约定 。 通 常 ,可 以 把 通用 寄存 器 分 为 可 分 配 寄存 器 、 保 留 
寄存 器 以 及 工作 寄存 器 等 类 别 。 

(1) 可 分 配 寄存 器 (allocatable register) 是 可 以 用 于 自由 分 配 和 释放 的 寄存 器 。 一 旦 分 
配给 特定 的 变量 ,这 些 寄 存 器 就 受到 了 保护 ,在 完成 特定 任务 之 前 不 会 再 分 配给 其 他 变量 。 
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在 某 个 寄存 器 的 特定 任务 结束 后 ,编译 器 必定 会 将 它 释放 ,此 后 便 可 自由 分 配给 其 他 变量 
了 。 寄 存 器 分 配 的 一 个 重要 方面 就 是 尽 可 能 使 某 个 寄存 器 最 大 限度 地 被 多 个 变量 “分 享 ”， 
达到 有 效 使 用 寄存 器 的 目标 。 

(2) 保留 寄存 器 (reserved register) 是 在 整个 程序 范围 内 起 固定 作用 的 那些 寄存 器 。 这 
些 寄存 器 包括 栈 顶 指针 寄存 器 、 栈 帧 指针 寄存 器 .Display 寄存 器、 参数 和 返回 值 寄存 器 以 及 
返回 地 址 寄存 器 等 。 最 好 不 要 随意 将 这 些 寄 存 器 用 于 完成 约定 功能 之 外 的 任务 ,否则 会 造 
成 不 兼容 甚至 难以 想象 的 后 果 。 

(3) 工作 寄存 器 (work register) 是 代码 生成 过 程 中 可 随时 短暂 使 用 但 用 完 后 必须 马上 释 
放 的 寄存 器 。 此 类 寄存 器 不 需要 很 多 ,通常 三 四 个 就 足够 了 。 至 于 将 哪些 通用 寄存 器 用 作 工 
作 寄 存 器 ,可 以 固定 下 来 ,也 可 以 临时 设 定 。 有 了 工作 寄存 器 的 存在 ,就 可 以 不 用 担心 在 临时 
需要 时 没有 寄存 器 可 用 ,也 可 以 简化 寄存 器 分 配 算法 。 比 如 ,MIPS 的 add 指令 需要 所 有 操作 
数 在 寄存 器 中 , 若 某 个 操作 数 不 在 寄存 器 中 ,那么 就 可 以 将 它 临 时 装 入 工作 寄存 器 中 ,add 指 
令 执 行 结束 后 就 马上 释放 这 个 寄存 器 以 备 再 次 临时 使 用 。 另 外 ,工作 寄存 器 的 存在 还 会 使 我 
们 感觉 到 有 比 实际 更 多 的 寄存 器 ,比如 在 寄存 器 分 配 算法 中 可 以 假定 没有 寄存 器 数目 的 限制 ， 
即 可 以 使 用 伪 寄 存 器 (pseudo-register) 。 伪 寄存 器 不 是 真实 的 物理 寄存 器 ,而 是 由 对 应 的 存储 
单元 模拟 的 ,在 需要 实行 物理 寄存 器 作用 时 ,就 可 以 将 它们 的 值 取 到 工作 寄存 器 中 ,用 后 者 替 
代 之 。 今 后 在 不 至 于 混淆 的 情况 下 ,本 书 将 不 是 真实 的 寄存 器 统称 为 伪 寄 存 器 。 

10. 4.2 节 介 绍 以 基本 块 为 单位 的 一 种 简单 代码 生成 算法 ,其 中 寄存 器 分 配 是 一 种 简单 的 
局 部 寄存 器 分 配 ,并 且 寄 存 器 数目 没有 设 定 上 限 , 即 可 以 使 用 伪 寄 存 器 。 第 11 章 的 Decal 编译 
器 中 ,寄存 器 分 配 同样 是 以 基本 块 为 单位 ,然而 在 寄存 器 数目 不 足 时 会 选择 将 合适 的 寄存 器 泄 
漏 (spilD 到 内 存 。 

10. 4. 3 节 是 关于 高 效 使 用 寄存 器 的 内 容 , 从 基本 块 的 DAG 图 生成 TAC 语句 的 次 序 与 
寄存 器 分 配 的 关系 ,目标 是 使 所 产生 的 TAC 语句 尽 可 能 节省 使 用 寄存 器 ,同时 还 介绍 一 种 
表达 式 求 值 过 程 中 使 用 最 少数 目 寄存 器 的 经 典 方法 。 

在 10.4.4 节 ,将 介绍 图 着 色 寄 存 器 分 配 算法 的 基本 思想 ,可 应 用 于 全 局 寄存 器 分 配 。 


10.4.1.3 指令 调度 


指令 调度 是 指 对 指令 的 执行 顺序 进行 适当 的 调整 ,从 而 使 得 整个 程序 得 到 优化 的 执行 
效果 。 指 令 调 度 对 于 现代 计算 机 系统 结构 的 高 效 使 用 是 十 分 重要 的 环节 ,比如 对 于 具有 流 
水 线 的 体系 结构 ,指令 调度 阶段 往往 是 必需 的 。 例 如 ,RISC 体系 结构 一 种 通用 的 流水 线 限 
制 为 : 从 内 存 中 取 入 寄存 器 中 的 值 在 随后 的 某 几 个 周期 中 是 不 能 用 的 。 在 这 几 个 周期 中 ， 
调 出 不 依赖 于 该 取 入 值 的 指令 来 执行 是 很 重要 的 。 必 须 尽 可 能 找 出 一 条 或 若干 条 指令 (与 
被 取 值 无 关 ) ,在 取 值 指令 之 后 能 立即 执行 ,如 果 找 不 到 相应 的 指令 ,这些 周期 就 会 被 浪费 。 

指令 调度 算法 可 以 局 限于 基本 块 范围 内 ,也 可 以 是 更 大 范围 的 全 局 指令 调度 (global 
code scheduling); 可 以 是 仅 静态 地 完成 指令 执行 顺序 的 调整 ,也 可 以 实现 动态 指令 调度 
(dynamic code scheduling)。 指 令 调度 的 更 具体 内 容 超 出 本 书 范围 ,这 里 不 去 进一步 讨论 。 


10.4.2 一 个 简单 的 代码 生成 过 程 


本 节 举 一 个 非常 简单 的 目标 代码 生成 的 例子 。 这 是 一 个 面向 单个 基本 块 的 代码 生成 过 
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程 ,采用 了 极其 简易 的 寄存 器 分 配 算法 ,代码 生成 前 后 的 语言 都 十 分 简单 。 

假设 基本 块 中 只 有 形 如 A :=B op C 和 A :=B 的 TAC 语句 序列 。 其 中 ,op 为 二 元 运 
算 ( 如 加 法 和 减法 运算 )。 为 简化 讨论 ,还 假定 A、B 和 C 均 为 变量 (容易 扩展 至 含有 常量 的 
情形 ) 。 

同时 ,假设 目标 语言 中 仅 含 下 列 两 类 指令 : 

(1) MOVE z,y。 其 中 ,zx 和 y 是 变量 或 者 是 寄存 器 ,但 至 少 有 一 个 是 寄存 器 。 该 指令 
的 执行 是 将 x 的 值 传 给 y 。 

(2) OP z,y。 其 中 ,OP 是 对 应 二 元 运算 op 的 操作 符 ,z 是 寄存 器 ,y 是 变量 或 者 是 寄 
存 器 。 该 指令 的 执行 是 使 + 和 y 的 内 容 做 OP 对 应 的 运算 ,结果 保存 于 寄存 器 zx。 

由 于 指令 选择 是 可 以 通过 直接 对 应 完成 的 ,因此 这 个 代码 生成 算法 的 核心 是 处 理 好 在 
基本 块 范围 内 如 何 充 分 利用 寄存 器 的 问题 。 对 此 ,所 要 遵循 的 原则 如 下 : 

CL) 生成 某 变量 的 目标 对 象 值 时 ,尽量 让 变量 的 值 或 计算 结果 保留 在 寄存 器 中 。 

(2) 尽 可 能 引用 变量 在 寄存 器 中 的 值 。 

(3) 在 同一 基本 块 内 ,后 面 不 再 被 引用 的 变量 所 占用 的 寄存 器 应 尽早 释放 。 

此 外 , 当 到 基本 块 出 口 时 ,需要 将 变量 的 值 存放 在 内 存 中 。 因 为 一 个 基本 块 可 能 有 多 个 
后 继 结 点 或 多 个 前 趋 结 点 ,同名 变量 在 不 同 前 趋 结 点 的 基本 块 内 ,出 口 前 存放 的 寄存 器 可 能 
不 同 ,或 没有 定 值 ,所 以 应 在 出 口 前 把 寄存 器 的 内 容 放 在 内 存 中 ,这 样 从 基本 块 外 进入 的 变 
量 值 都 在 内 存 中 。 

用 好 寄存 器 是 一 个 很 难 解决 的 问题 ,下 面 给 出 一 个 启发 式 算法 , 仅 注 重 过 程 的 简单 ,而 
未 特别 强调 优化 。 读 者 可 以 通过 细 化 各 种 情况 ,并 借助 于 基本 块 范围 内 变量 的 待 用 信息 链 
和 活跃 信息 链 ,对 算法 进一步 改造 ,以 生成 更 优化 的 代码 。 

该 算法 中 将 会 用 到 以 下 两 组 信息 : 

(1) 寄存 器 描述 数组 RVALUE。RVALUE [RJ] 描述 寄存 器 R 当前 存放 哪些 变量 。 

(2) 变量 描述 数组 AVALUE。AVALUE [A] 表 示 变 量 A 的 值 存放 在 哪个 寄存 器 中 
(或 不 在 任何 寄存 器 中 ) 。 

下 面 是 该 算法 的 描述 : 

(1) 对 每 个 TAC HA i tA :=B op C 或 i :A :==B, 依 次 执行 下 述 步骤 : 

。 以 i 为 参数 ,调用 getreg(i); 从 getreg 返回 时 ,得 到 一 个 寄存 器 R( 这 里 先 假定 尺 为 
伪 寄 存 器 ) ,作为 存放 A 现行 值 的 寄存 器 ; 函数 getreg 随后 给 出 。 
利用 AVALUE [BJ] 和 AVALUE [C]. WAE i B 和 C 现行 值 的 存放 位 置 ; 如 果 其 现 
行 值 在 寄存 器 中 , 则 把 寄存 器 取 作 B' 和 C'; 如 果 其 现行 值 不 在 寄存 器 中 , 则 在 相应 
指令 中 仍 用 B 和 C 表示 。 
分 两 种 情形 生成 目标 代码 : 
a) 对 于 i :A +=B op C. 
如 果 B 现行 值 不 在 寄存 器 或 者 BAR MUZE 

MOV B,R /* B 和 C 都 不 在 寄存 器 中 */ 

OP R,C 
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MOV B,R /* B 不 在 寄存 器 中 , C 在 寄存 器 中 * / 


OP R,C' 
或 
MOV B',R /* B 在 寄存 器 中 , C 不 在 寄存 器 中 * / 
OP R,C 
或 
MOV BR /* BRC 都 在 寄存 器 中 * / 
OP Ric 
否则 生成 
OP R,C /* B 在 寄存 器 R 中 , C 不 在 寄存 器 中 * / 
或 
OP R,C' /* BERR 中 ，C 在 寄存 器 中 * / 


如 B 或 C' 为 R, 则 删除 AVALUE[B] 或 AVALUE[C] 中 的 R。 对 每 个 DAB, 
DERVALUELR], 并 且 在 语句 i 之 后 D 仍然 是 活跃 变量 , 则 在 生成 以 上 代码 之 前 
先 插 入 一 条 指 今 : 
MOV R.D 
4 AVALUE[A]={R} ,并 令 AVALUELR]=(A} ,以 表示 变量 A 的 现行 值 只 在 RR 
中 ,并 且 尺 中 的 值 只 代表 A 的 现行 值 。 
b) XF itAt=B, 
如 果 B 现行 值 不 在 寄存 器 中 , 则 生成 
MOV B.R 
4 AVALUE[B]=(R}.3f4 RVALUELR]=(A, B}; 如 果 B 现行 值 在 寄存 器 (R) 
中 , 则 将 A 加 入 集合 RVALUELR]; 无 论 何 种 情况 ,都 令 AVALUE [A]= {R}. 
如 B 或 C 的 现行 值 在 基本 块 中 不 再 被 引用 ,它们 也 不 是 基本 块 出 口 之 后 的 活跃 变 
量 , 并 且 其 现行 值 在 某 个 寄存 器 Rs 中 , 则 删除 RVALUE [R] PHI B RC 以 及 
AVALUE [BJ 或 AVALUE [Cj] 中 的 R, ,使 该 寄存 器 不 再 为 也 或 C 所 占用 。 
(2) 处 理 完 基 本 块 中 所 有 TAC 语句 之 后 ,对 现行 值 在 某 寄 存 器 R 中 的 每 个 变量 M , 若 
它 在 出 口 之 后 是 活跃 的 , 则 生成 MOVE R.M, 将 其 存 人 主 存 。 
下 面 是 函数 getreg 的 描述 。 
getreg 功能 : 以 i: A := 二 B op C 或 i: A :=B 为 参数 ,返回 一 个 伪 寄 存 器 。 
步 又， 
。 对 于 i: A :=B op C。 
车 BERVALUE [RjJ, 且 在 语句 i 之 后 B 在 基本 块 中 不 再 被 引用 ,同时 也 不 是 基本 
块 出 口 之 后 的 活跃 变量 , 则 返回 RR; 否则 ,返回 一 个 新 的 伪 寄 存 器 R'。 
。 对 于 i: A :=B。 
车 BERVALUE [Rj], 则 返回 R; 否则 ,返回 一 个 新 的 伪 寄 存 器 R'。 
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下 面 看 一 个 简单 的 例子 。 设 有 以 下 TAC 语句 序列 组 成 的 基本 块 : 
tt=a—b 
ai=b 
ut=a—c 
vi=ttu 
dt=vutu 
假定 在 该 基本 块 出 口 处 ,5b 和 4d 是 活跃 的 ,其 他 变量 均 不 活跃 。 
以 该 基本 块 的 语句 序列 为 输入 ,利用 上 述 算法 所 生成 的 代码 序列 如 图 10. 18 第 2 列 所 
示 。 算 法 执行 过 程 以 及 相关 描述 信息 的 变化 情况 均 反映 在 图 10. 18 中 。 


语 句 ”| 生成 的 代码 | 寄存 器 描述 变量 地 址 描述 
t=a-b | MOV a, Rọ 空 寄存 器 
SUB Ry, b Ro 包含 1 + 在 Ro 中 
aa MOV b, R, Ro 包含 1 t E Ro 中 
RI 包含 a、b a. b 在 RI 中 
u=a-c | MOV R, b Ro 包含 1 t YE Ro 中 
SUB R,, c Rau u 在 及 中 
vittu | ADD Ry, Ry Ro 包含 u {E Rẹ 
RI 包含 4 v 在 Ro 中 
d=vtu |ADD Ro, RI | Ro 包含 d d 在 Ro 中 
MOV Ro, d d 在 Ro 中 和 内 存 中 


图 10.18 一 个 简单 的 目标 代码 生成 过 程 举例 


通常 ,由 目标 代码 生成 算法 得 到 的 代码 还 要 经 过 目标 代码 优化 的 环节 才 会 最 后 交付 执 
行 。 可 将 之 前 介绍 过 的 各 个 层次 代码 的 优化 技术 用 于 目标 代码 优化 。 例 如 ,通过 窥 孔 优化 
技术 ,可 以 发 现 图 10.18 中 的 指令 MOV R b 是 多 余 的 。 此 外 ,各 种 指令 调度 技术 均 为 目 
标 代码 优化 的 重要 工作 内 容 。 


10.4.3 高 效 使 用 寄存 器 


如 前 所 述 , 可 供 分 配 的 寄存 器 数目 极其 有 限 ,因而 如 何 高 效 使 用 寄存 器 是 目标 代码 生成 
时 重点 考虑 的 问题 。 一 方面 要 尽 可 能 地 让 变量 的 值 保留 在 寄存 器 中 , 尽 可 能 引用 变量 在 寄 
存 器 中 的 值 ; 而 另 一 方面 则 需要 尽 可 能 早 地 释放 寄存 器 ,而 让 其 他 变量 可 以 获得 寄存 器 。 
这 是 很 难 调和 的 两 个 方面 。 

这 个 问题 实际 上 更 早 的 编译 阶段 就 应 该 有 所 考虑 了 。 比 如 ,从 基本 块 的 DAG 图 生成 
TAC 语句 的 次 序 与 目标 代码 生成 算法 的 效果 密切 相关 。 

下 面 看 图 10. 19 中 的 例子 ,从 基本 块 的 DAG 图 可 得 到 等 价 的 但 次 序 不 同 的 TAC 语句 
序列 。 如 果 假 设 基本 块 出 口 处 只 有 T4 是 活跃 的 ,那么 对 于 图 10. 19 中 的 两 段 TAC 代码 ， 
执行 10.4.2 节 的 代码 生成 算法 ,分 别 得 到 的 目标 汇编 代码 如 图 10. 20 所 示 。 

图 10. 20 的 两 段 汇 编 代码 有 什么 差别 呢 ?” 从 指令 条 数 上 看 ,二 者 是 相同 的 。 然 而 ,若是 
对 比 一 下 二 者 使 用 的 寄存 器 个 数 , 会 发 现 第 二 段 代码 少 用 一 个 。 因 此 ,车 是 从 寄存 器 的 使 用 
效率 来 看 ,后 者 就 是 更 优 的 。 

下 面 从 直观 角度 看 一 下 造成 此 例 寄 存 器 使 用 差异 的 原因 。 对 于 第 一 段 代码 ,第 1 条 语 
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T\:=atb 
T2:=ctd 
73=e-72 
T4:=T1-T3 


T2:=ctd 
73:=e-72 
Tl:=a+b 
T4:=T1-T3 


图 10. 19 从 基本 块 DAG 图 生成 的 等 价 但 次 序 不 同 的 TAC 语句 序列 


Tl:=atb MOV a, Ro T2:=c+d MOV c, Ro 
T2:=c+d ADD Ry, b T3:=e-T2 ADD Ry d 
13:=e-T2 = MOV c, R Tl:=a+b = MOV œ, R 
T4:=T1+T3 ADD Ry, d T4:=T1-T3 SUB Ry, Ro 
MOV e, R MOV a, Ro 
SUB Ry R ADD Ry b 
SUB Rọ R SUB Ry, R, 
MOV Ro, Ti MOV Ry T, 


图 10.20 BEBE TAC 代码 对 应 的 目标 代码 


名 使 得 T1 获得 寄存 器 R。。 但 T1 在 后 面 第 4 条 语句 还 会 用 到 ,在 此 期 间 Ro 一 直 不 能 被 释 
放 , 因 而 不 能 分 配给 别 的 变量 。 对 于 第 二 段 代 码 , 第 1 条 语句 使 得 T2 获得 寄存 器 Re 。 然 
而 ,在 第 2 条 语句 结束 后 ,T2 不 再 使 用 ,因此 在 第 3 条 语句 ,Ro 又 被 分 配给 变量 T1 ,提高 了 
寄存 器 利用 率 。 

根据 这 一 分 析 , 下 面 给 出 一 个 从 DAG 图 产生 TAC 语句 序列 的 启发 式 排序 算法 ,可 以 使 得 
在 对 获得 的 TAC 代码 执行 10. 4. 2 节 的 代码 生成 算法 时 能 够 有 效 提 高 寄存 器 的 利用 率 。 

这 个 启发 式 算 法 首先 按照 以 下 步骤 依次 对 DAG 图 的 内 部 结 点 进行 标记 : 

(1) 在 未 标记 的 内 部 结 点 中 ,选取 一 个 其 全 部 父 结 点 均 已 标记 过 的 结 点 n, 对 进行 

(2) 车 nn 的 最 左 孩 子 m 不 是 叶 结 点 且 其 所 有 父 结 点 均 已 标记 过 , 则 对 m 进行 标记 。 

(3) 将 mm 看 作 n, 转 (2)。 

(4) 若 还 有 未 标记 过 的 内 部 结 点 , 则 转 (1); 否则 ,退出 。 

然后 ,将 内 部 结 点 被 标记 的 次 序 反 过 来 ,就 得 到 从 DAG 图 产生 TAC 语句 的 次 序 。 

图 10. 21 是 对 DAG 图 内 部 结 点 进行 标记 的 两 个 例子 。 


10.21 对 DAG 图 内 部 结 点 进行 标记 


图 10. 21 的 右边 是 对 应 图 10. 19 中 DAG 图 的 标记 结果 。 内 部 结 点 被 标记 的 次 序 是 
T4、T1、T3、T2。 那 么 ,产生 TAC 语句 的 次 序 就 应 该 是 T2、T3、T1、T4。 对 应 的 TAC 语句 
序列 就 是 图 10. 19 中 的 第 二 段 TAC 代码 。 

关于 如 何 有 效 使 用 寄存 器 的 话题 还 有 许多 。 下 面 介绍 一 个 关于 使 用 最 少 的 寄存 器 进行 
表达 式 求 值 的 方法 ,对 于 在 基本 块 内 高 效 使 用 寄存 器 非常 有 用 。 这 一 方法 适用 于 诸如 
MIPS 之 类 的 RISC 机 器 。 

假设 在 一 个 简单 的 基于 寄存 器 的 机 器 上 进行 表达 式 求 值 ,除了 load/store 指令 用 于 寄 
存 器 值 的 装 入 和 保存 外 ,其 余 操作 均 由 下 列 格式 的 指令 完成 : 

OP reg0, regl, reg2 

OP reg0, regl 
其 中 ,reg0、regl 和 reg2 处 可 以 是 任意 的 寄存 器 。 运 行 这 些 指令 时 ,对 reg] 和 reg2 的 值 做 二 元 
运算 ,或 者 对 regl 的 值 做 一 元 运算 ,结果 存 人 reg0。 对 于 load/store 指令 ,假设 其 格式 为 

LD reg, mem /* 取 内 存 或 立即 数 mem 的 值 到 寄存 器 reg */ 

ST reg, mem /* 存 寄存 器 reg 的 值 到 内 存量 mem */ 


该 方法 首先 对 表达 式 树 (表达 式 的 抽象 语法 树 ) 的 每 个 结 点 用 所 谓 的 Ershov 数 (Ershov 
number) 进 行 标记 。 如 果 不 考 虑 寄存 器 的 泄漏 ,并 假设 不 考虑 可 能 的 优化 因素 (如 公共 子 表 
达 式 删除 ) ,那么 每 个 结 点 的 Ershov 数 就 是 对 应 这 个 结 点 的 表达 式 求 值 时 所 需 寄存 器 数目 
的 最 小 值 。 用 Ershov 数 标记 表达 式 树 结 点 的 算法 是 : 

(1) 用 1 标记 所 有 叶子 结 点 。 

(2) 对 仅 有 一 个 孩子 的 内 部 结 点 ,其 标记 沿用 孩子 结 点 的 标记 。 

(3) 对 于 有 两 个 孩子 的 内 部 结 点 ,车 两 个 孩子 的 标记 不 同 , 则 用 较 大 的 一 个 来 标记 该 结 
点 ; 若 两 个 孩子 的 标记 相同 , 则 将 这 个 标记 数 加 1 后 对 该 结 点 进行 标记 。 

例如 ,图 10. 22 是 一 个 用 Ershov 数 标记 表达 式 树 结 点 的 例子 ,对 应 的 表达 式 为 Co 十 0) * 
((d 十 e) 一 c) 。 


图 10.22 用 Ershov 数 标记 表达 式 树 结 点 


在 完成 标记 后 ,就 可 以 生成 使 用 寄存 器 最 少 的 目标 代码 了 。 下 面 介绍 一 种 实现 这 
个 过 程 的 基本 算法 。 假 设 表达 式 树 结 点 n 的 Ershov 数 为 &( 二 0) ,表达 式 求 值 过 程 使 
用 个 伪 寄 存 器 Ru ,Ri,…,R-1, 并 且 求 值 结果 存在 Re 中 。 这 种 代码 生成 算法 的 思想 
如 下 : 
CL) 如 果 的 左 子 树 根 结 点 的 标记 大 于 右 子 树 根 结 点 的 标记 ,那么 先 递 归 求 值 左 子 树 ， 
求 值 过 程 使 用 伪 寄 存 器 Ro .Ri ,… Rina ,结果 存放 于 Ro; 然后 再 递归 求 值 右 子 树 , 求 值 过 程 
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使 用 伪 寄 存 器 Ry ,… s Ri- COCOR, Ai FRORES a T ar AIA H H kb DTF k) ,结果 存 
HF Ro 最 后 生成 一 条 形 如 OP RRR, 的 指令 。 

(2) 如 果 nn 的 左 子 树 根 结 点 的 标记 小 于 右 子 树 根 结 点 的 标记 ,那么 情况 和 (1) 刚 好 相 
反 , 即 先 递 归 求 值 右 子 树 , 求 值 过 程 使 用 伪 寄 存 器 Ro ,Ri ,… Re ,结果 存放 于 Ro; 然后 再 
递归 求 值 左 子 树 , 求 值 过 程 使 用 伪 寄 存 器 R t Ri ODR, A FRR AE ia A T Aa 
数目 为 & 一 b, 少 于 &) ,结果 存放 于 Ro; 最 后 生成 一 条 形 如 OP R.R ,Ro 的 指令 。 

G) 如 果 n 的 左 子 树 根 结 点 的 标记 与 右 子 树 根 结 点 的 标记 相等 , 子 树 求 值 的 次 序 不 重 
要 ,例如 ,可 以 先 递归 求 值 左 子 树 , 求 值 过 程 使 用 伪 寄 存 器 Ro ,Ri o0 ,Rs ,结果 存放 于 Ro; 
然后 再 递归 求 值 右 子 树 , 求 值 过 程 使 用 伪 寄 存 器 Ri ,… Ro ,结果 存放 于 Ri; 最 后 生成 一 
条 形 如 OP Ru ,Ru ,Ri 的 指令 。 

(4) 如 果 n 只 有 一 个 孩子 ,那么 先 递 归 求 值 这 个 以 孩子 为 根 结 点 的 子 树 , 求 值 过 程 使 用 
伪 寄 存 器 Ro ,Ri ,… Rii ,结果 存放 于 Ro; 最 后 生成 一 条 形 如 OP Ro ,Ro 的 指令 。 

(5) 如 果 n 是 叶子 结 点 , 则 生成 一 条 形 如 装 入 到 结果 寄存 器 reg 的 load 指令 LD reg,mem。 

根据 这 一 算法 ,由 图 10. 22 的 表达 式 树 生成 的 代码 为 : 

LD Ra 

LD Ri,b 

ADD R,, Ro» Ri 

LD Rid 

LD Re 

ADD Ri, Ris Ro 

LD R2,c¢ 

SUB Ri, Ri, R: 

MUL Ru,，R,，R， 

以 上 算法 中 ,假设 了 实际 物理 寄存 器 的 数目 不 少 于 Ershov 数 。 如 果 是 少 于 Ershov 数 
的 情况 , 则 要 对 这 个 算法 进行 调整 ,在 适当 的 地 方 插入 store 指令 ,将 相应 的 伪 寄 存 器 泄漏 
到 (spilled into) 内存。Sethi-Ullman 算法 (Sethi-Ullman algorithm)" 完整 描述 了 这 个 过 
程 ,限于 篇 幅 , 这 里 不 作 进一步 介绍 。 


10.4.4 图 着 色 寄存 器 分 配 


前 面 也 提 到 过 ,寄存 器 分 配 可 分 为 两 个 部 分 , 即 分 配 和 指派 。 因 此 ,可 以 将 其 认为 是 一 
个 两 遍 的 过 程 : 

(1) 第 一 遍 先 假定 可 用 的 通用 寄存 器 是 无 限 数 量 的 ,完成 指令 选择 和 生成 。 例 如 ,前 面 介 
绍 的 简单 代码 生成 算法 中 的 getreg 函数 返回 一 个 伪 寄 存 器 (不 管 物理 寄存 器 的 实际 个 数 ) 。 

(2) 第 二 遍 将 物理 寄存 器 指派 到 伪 寄 存 器 。 物 理 寄存 器 数量 不 足 时 ,会 将 一 些 伪 寄存 
器 泄漏 到 (spbilled into) 内 存 。 图 着 色 算 法 的 核心 任务 就 是 使 得 泄漏 的 伪 寄 存 器 数目 最 少 。 

下 面 介绍 一 个 基本 的 图 着 色 全 局 寄存 器 分 配 算法 。 它 基于 寄存 器 相干 图 (register 
interference graph)。 本 书 中 的 寄存 器 相干 图 是 一 个 无 向 图 ,每 个 伪 寄 存 器 是 图 中 的 一 个 结 
点 ; 如 果 程 序 中 存在 某 点 ,一 个 结 点 在 该 点 被 定 值 ,而 另 一 个 结 点 在 紧 靠 该 定 值 之 后 的 点 是 
活路 的 , 则 在 这 两 个 结 点 间 连 一 条 边 。 

图 10. 23 的 流 图 中 给 出 了 每 个 定 值 点 之 后 的 活跃 变量 信息 。 据 此 ,可 以 给 出 该 流 图 对 
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应 的 寄存 器 相干 图 ,如 图 10. 24 所 示 。 


(a=! |B, (12) retum |28; 
go ia 
B. B, 
nie os tac d (9) ec-a 
{a,b} yd (10) a:=cte ee 
ta, b, d}| (5) ex=a-b fac) (11) if a <100 
{a, e, d}| (6) c=erd (7) d=atd oC» goto (2) 
: lfa, c, | (8) if d<100 goto(7) 
B; 
{a, c, d} 
图 10.23 定 值 点 之 后 的 活跃 变量 信息 图 10.24 寄存 器 相干 图 


对 相干 图 进行 着 色 (coloring) ,是 指使 用 (对 应 物理 寄存 器 的 数量 ) 种 颜色 对 相干 图 进 
行 着 色 ,使 得 任何 相 邻 的 结 点 均 具 有 不 同 的 颜色 ( 即 两 个 相干 的 伪 寄 存 器 不 会 分 配 到 同一 个 
物理 寄存 器 ) 。 这 样 ,就 把 物理 寄存 器 指派 的 问题 转化 成 了 图 论 问 题 。 

“一 个 图 是 否 能 用 种 颜色 着 色 ” 是 一 个 NP 完全 问题 。 以 下 是 一 个 简单 的 启发 式 上 着 
色 算法 思想 : 

(1) 假设 图 G 中 某 个 结 点 的 度数 小 于 k, 从 G 中 删除 ”及 甚 邻 边 得 到 图 G ,对 G 的 &- 
着 色 问 题 可 转化 为 先 对 G' 进行 上 着 色 , 然 后 给 结 点 半分 配 一 个 其 相 邻 结 点 在 G 的 人 着 色 
中 没有 使 用 过 的 颜色 。 

(2) 重复 (1) 的 过 程 , 从 图 中 删除 度数 小 于 &A 的 结 点 。 如 果 可 以 到 达 一 个 空 图 ,说 明 对 
原 图 可 以 成 功 实现 大 着 色 ; 否则 , 原 图 不 能 成 功 实现 大 着色, 可 从 G 中 选择 某 个 结 点 (作为 
泄漏 候选 ) 将 其 删除 ,算法 可 继续 。 

对 于 图 10. 24 的 寄存 器 相干 图 , 取 & 一 4, 则 可 以 成 功 着 色 。 倘 若 真 实 的 可 分 配 物 理 寄 
存 器 数目 不 足 4, 则 必 将 会 选 某 些 结 点 所 代表 的 伪 寄 存 器 泄漏 到 内 存 中 去 。 

最 后 要 指出 的 是 ,以 上 寄存 器 相干 图 仅 适 用 于 特定 情况 。 每 个 结 点 对 应 于 流 图 范围 内 
需要 分 配 寄存 器 的 变量 ,每 个 变量 都 是 在 定 值 时 将 被 分 配 寄 存 器 ,寄存 器 分 配 算法 面向 整个 
流 图 范围 (比如 ,可 以 在 前 述 的 getreg 函数 基础 上 进行 扩展 )。 此 外 ,若是 先进 行 某 些 代码 
优化 (比如 ,在 图 10. 23 的 流 图 范围 内 去 掉 无 用 定 值 点 ) ,然后 再 生成 寄存 器 相干 图 ,可 能 会 
有 不 同 的 着 色 效 果 。 

对 于 不 同 的 目标 指令 集 , 不 同 的 寄存 器 分 配 算法 ,不 同 的 优化 目标 和 范围 ,可 根据 需要 
定义 不 同 的 寄存 器 相干 图 。 


10.4.5 PL/0 编译 器 的 目标 代码 生成 程序 


PL/0 编译 器 是 贯穿 本 书 的 简单 编译 器 例子 , 它 将 PL/0 源 程序 直接 翻译 为 类 P-code 虚 
拟 机 代码 ,没有 任何 形式 的 中 间 表 示 ,没有 进行 任何 代码 优化 。 
PL/0 编译 器 的 目标 代码 生成 过 程 比较 简单 。 类 P-code 虚拟 机 是 一 种 简单 的 纯 栈 式 结 
构 的 机 器 ,运行 期 间 的 数据 存储 和 运算 都 在 运行 栈 上 实现 。 它 没有 通用 寄存 器 ,因此 目标 代 
码 的 生成 过 程 中 也 不 必 考 虑 寄存 器 分 配 。 
由 1.4.3 节 ,类 P-code 虚拟 机 的 指令 格式 形 如 
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它 由 3 部 分 构成 ,其 含义 分 别 为 : 
F: 表示 指令 的 操作 码 。 
L: 若 起 作用 , 则 表示 引用 层 与 申明 层 之 间 的 层次 差 ; 若 不 起 作用 , 则 置 为 0; 
A: 不 同 的 指令 含义 不 同 。 
类 P-code 虚拟 机 完整 的 指令 集合 见 第 1 章 图 1. 20。 
通用 的 目标 代码 生成 函数 为 


# define gendo(a, b, c) if (—1==gen(a, b, c)) return 一 1 
int gen(enum fct x, int y, int z) 
{ 
if (cx >=cxmax) 
{ 
printf("Program too long"); 
return— 1; 
} 


code[cx]. f=x; 


code[cx]. l=y; 
code[ cx]. a=z; 
arty 

return 03 


) 


生成 目标 代码 时 ,大 部 分 情况 可 以 根据 源 程序 的 语句 含义 简单 对 应 到 适当 的 类 P-code 
虚拟 机 指令 或 指令 序列 。 例 如 ,表达 式 的 代码 生成 片段 中 加 法 和 减法 指令 的 生成 : 


int expression(bool * fsys，int * ptx，int lev) /* 表达 式 处 理 * / 
{ 
while (sym= = plus || sym= = minus) 
{ 
addop=sym; 


if (addop==plus) 
{ 
gendo(opr, 0, 2); /* 生成 加 法 指令 * / 
} 
else 


{ 
gendo(opr, 0, 3); /* 生成 减法 指令 * / 


值得 注意 的 是 ,在 处 理 标识 符 相关 操作 的 类 P-code 代码 生成 时 ,通常 需要 访问 符号 表 
的 信息 。 在 遇 到 常数 标识 符 时 ,需要 从 符号 表 读 出 该 标识 符 的 常数 值 , 直 接 填 写 到 相关 指令 
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( 取 立 即 数 指令 LIT) 的 A 部 分 。 在 遇 到 变量 标识 符 时 ,需要 从 符号 表 查 出 该 标识 符 申 明 时 

的 层次 信息 ,然后 从 当前 层次 中 减 去 申明 时 的 层次 得 到 层次 差 工 。 同 时 ,也 要 从 符号 表 读 出 

该 标识 符 的 偏 移 地 址 信息 , 即 相关 指令 的 A 部 分 。 这 样 ,就 可 以 生成 LOD 或 STO 指令 。 
例如 ,在 处 理 因 子 时 ,常量 标识 符 生 成 LIT 指令 ,变量 标识 符 生 成 LOD 指令 : 


int factor(bool * fsys, int * ptx, int lev) /* 因子 处 理 * / 


i=position(id, * ptx); /* 查找 名 字 * / 


switch (table[i]. kind) 
{ 


case constant: /* 名 字 为 常量 * / 
gendo(lit, 0, table[i]. val); /* 生成 LIT 指令 */ 
break; 

case variable: /* 名 字 为 变量 * / 
gendo(lod, lev-table[i]. level, table[i]. adr) ; /* 生成 LOD 指令 */ 


break; 


又 如 ,在 处 理 赋 值 语句 时 ,针对 左边 的 变量 标识 符 ,会 生成 STO 指令 : 
int statement(bool * fsys, int * ptx, int lev) /* 语句 处 理 * / 


if (sym 一 一 ident) /* 准备 按照 赋值 语句 处 理 * / 
{ 
i=position(id, * ptx); 


gendo(sto, lev-table[i]. level, table[i]. adr); /* 生成 STO 指令 */ 


类 似 地 ,在 遇 到 过 程 标识 符 时 ,需要 从 符号 表 查 出 该 标识 符 申 明 时 的 层次 ,然后 从 当前 
层次 中 减 去 申明 时 的 层次 得 到 层次 差 L, 这 是 在 生成 指令 CAL 时 需要 用 到 的 。 同 时 ,也 要 
从 符号 表 读 出 该 标识 符 的 SIZE 信息 ,以 作为 指令 INT 的 A 部 分 。 

此 外 ,在 生成 分 支 指令 (JMP,JPC,CAL) 时 ,所 用 到 的 A 部 分 需要 从 编译 程序 中 的 某 些 
变量 的 取 值 得 到 。 这 常会 用 到 返 填 技 术 , 如 生成 条 件 跳 转 指 令 的 代码 片段 : 


if (sym= =ifsym) /x* 准备 按照 if c then s 语句 处 理 * / 


conditiondo(***); /* 调用 条 件 处 理 (逻辑 运算 ) 函 数 * / 
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cxl=cx; /x 保存 当前 指令 地 址 * / 


gendo(jpc, 0, 0); /* 生成 条 件 跳 转 指令 , 跳 转 地 址 未 知 ,暂时 写 0 * / 
statementdo(fsys, ptx, lev); /* 处 理 then 后 的 语句 * / 
code[cxl].a 一 cx /* 地 址 返 填 * / 

} 

代码 生成 的 其 他 细节 参见 附录 A。 


练 yJ 


1. 何谓 代码 优化 ? 最 常用 的 代码 优化 技术 有 哪些 ? 
2. 图 10. 26 是 图 10. 25 的 C 代码 的 部 分 三 地 址 代码 序列 。 


void quicksort (m,n) 
int m,n; 
{ 
int i,j; 
int v,x; 
if (n<=m) return; 
/* fragment begins here */ 
i = m-1; j = n; v = a(n]; 
while(1) { 
do i = i+1; while (a[i]<v); 
do j = j-1; while (a[j]>v); 
if (i>=j) break; 
x = a[i]; a[i] = a[j]; a[j] = x; 


} 

x = a[i]; ali] = a[n]; a[n] = x; 
/* fragment ends here */ 
quicksort (m,j); quicksort (i+1,n); 


(1) i= (16) 


(2) (17) 
6) *n (18) 
(4) 4] (19) 
(5) 1 (20) 
(6) =4*i (21) 
(7) ti=afh] (22) 
(23) 
(24) 
(25) 
(26) 
(12) if is<v goto (9) (27) 
(13) if >= goto (23) (28) 


(14) 16:=4*i (29) 
(30) 


10. 26 


(1) 请 将 图 10. 26 的 三 地 址 代码 序列 划分 为 基本 块 并 给 出 其 流 图 。 
(2) 将 每 个 基本 块 的 公共 子 表达 式 删 除 。 
(3) 找 出 流 图 中 的 循环 ,将 循环 不 变量 计算 移出 循环 外 。 
(4) 找 出 每 个 循环 中 的 归纳 变量 ,并 在 可 能 的 地 方 删除 它们 。 
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3. 在 图 10. 27 的 程序 流 图 中 ,B; 中 的 i :一 2 是 循环 不 7 
变量 ,可 以 将 其 提 为 前 置 结 点 吗 ? 你 还 能 举 出 一 些 例子 说 明 一 一 一 


1 |B, 


循环 不 变量 外 提 的 条 件 吗 ? ifu<v goto B, |B, 
4. 试 对 以 下 基本 块 B 和 B, : Z 
Bı: A:=BxC Bs: B:=3 ATE (2 
D :=B/C D :=A+C 
E:=A+D E :=A*C v= 
pmber pipe if w<20 goto B, |B: 
G:=B*C CB n 1 B, 
H :=G*G H :=A+C 
peice 1:=AxC 图 10.27 
L :=F J :=H+I 
M:=L K :=B*5 
L:=K+J 
M := 


分 别 应 用 DAG 对 它们 进行 优化 ,并 就 以 下 两 种 情况 分 别 写 出 优化 后 的 TAC 语句 序列 ， 
(1) 假设 只 有 G、L、M 在 基本 块 后 面 还 要 被 引用 。 

(2) 假设 只 有 工 在 基本 块 后 面 还 要 被 引用 。 

5. 分 别 对 图 10. 28 和 图 10. 29 的 流 图 : 


(1) a:=1 
2i (2) b=2 
(3) c:=a+b 
B, (4) di=c-a 
B; (5) d:=b*d 
(8) b:=a+b 
Bs (9) e:=c-a 
B (6) d:=at+b (10) a:=b*d B, 
4 (7) e=e+1 (11) b:=a-d Gi 
10. 28 10. 29 


(1) 求 出 流 图 中 各 结 点 n 的 必 经 结 点 集 D(n)。 

(2) 求 出 流 图 中 的 回 边 。 

(3) 求 出 流 图 中 的 循环 。 

6. 图 10. 30 是 包含 7 个 基本 块 的 流 图 ,其 中 B 为 入 口 基本 块 ,Bi 为 出 口 基本 块 : 

(1) 指出 在 该 流 图 中 基本 块 B 的 支配 结 点 (基本 块 ) 集 合 . 始 于 By 的 回 边 以 及 基于 该 
回 边 的 自然 循环 中 包含 哪些 基本 块 。 
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By 


B, B, 
2) c 一 2 
ee le T Da Jan (16) return | 出 口 
B; 
Be 
(5) b:=2 |g. 
6) es=a-b 
par 1 dajemo 
eceb (14) a:=cte 
iene LI aerd ， (15) if a<100 goto (5) 
5 < 
(10) if d<100 goto (2) Qo goto (11) 
B, B; 


图 10.30 


(2) 采用 和 迭代 求解 数据 流 方程 的 方法 对 活路 变量 信息 进行 分 析 。 假 设 B; 的 LiveOut 
Wi BD ,和 迭代 结束 时 的 结果 在 图 10. 31 所 示 的 表 中 给 出 。 试 填充 该 表 的 内 容 。 


LiveUse DEF LiveIn 


LiveOut 


B, 


B, 


B; 


B, 


B; 


B, 


B, 


图 10.31 


(3) 对 于 该 流 图 ,根据 采用 迭代 求解 数据 流 方程 对 到 达 - 定 值 (reaching definitions) % 
据 流 信息 进行 分 析 的 方法 。 假 设 Bi 的 IN 信息 为 如 ,迭代 结束 时 的 结果 如 图 10. 32 所 示 。 


试 填充 该 表 的 内 容 。 
GEN KILL IN OUT 
B, Ø 
Bz 
B: 
Bı 
B; 
B; 
B: 
10. 32 
(4) 指出 该 流 图 范围 内 ,变量 “在 (11) 的 UD 链 。 
(5) 指出 该 流 图 范围 内 ,变量 c 在 (2) 的 DU 链 。 
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7. 一 个 编译 程序 的 代码 生成 需 考虑 哪些 问题 ? 

8. 根据 10. 4. 3 节 介绍 的 从 DAG 图 产生 TAC 语句 序列 的 启发 式 排序 算法 , 试 给 出 
图 10. 21 左 边 的 DAG 图 所 产生 的 TAC 语句 序列 。 

9. 根据 10. 4. 2 节 所 介绍 的 简单 代码 生成 算法 和 所 假设 的 目标 语言 , 试 给 出 由 题 8 中 
TAC 语句 序列 所 生成 的 目标 代码 。 

10. 图 10. 21 右边 的 DAG 图 也 是 一 棵 表达 式 树 。 试 对 该 表达 式 树 的 每 个 结 点 用 
Ershov 数 进行 标记 ,并 根据 标记 结果 以 及 10. 4. 3 节 所 介绍 的 算法 ,针对 10. 4. 3 节 所 假设 
的 基于 寄存 器 的 简单 机 器 ,生成 该 表达 式 的 目标 代码 。 

11. 对 于 图 10. 29 和 图 10. 30 所 示 的 流 图 ,分 别 给 出 相应 的 寄存 器 相干 图 。 若 要 保证 
图 着 色 过 程 中 不 会 出 现 将 寄存 器 泄漏 到 内 存 中 的 情形 ,那么 可 供 分 配 的 物理 寄存 器 的 最 小 
数目 分 别 是 多 少 ? 

12. 熟悉 类 P-code 虚拟 机 的 指令 格式 与 功能 ,并 阅读 PL/0 编译 程序 的 相关 代码 ,理解 
PL/0 编译 程序 中 生成 类 P-code 代码 的 方法 。 
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第 11 章 课程 设计 


实践 是 学 习 编 译 原理 和 技术 的 重要 环节 。 本 书 提供 两 个 具体 编译 器 的 例子 ,作为 可 选 
的 课程 设计 素材 。 一 个 例子 是 贯穿 全 书 的 PL/0 编译 器 ,在 书 中 不 同 部 分 已 有 较 详细 的 介 
绍 。 另 一 个 例子 是 Decal 编译 器 , 它 实现 的 是 一 种 强 类 型 单 继承 的 简单 面向 对 象 语言 。 

本 章 首先 给 出 基于 PL/0 编译 器 的 课程 设计 方案 的 一 些 建议 。 然 后 以 主要 的 篇 幅 介绍 
Decal 编译 器 的 设计 思想 和 框架 ,其 中 也 包含 一 些 基于 该 编译 器 框架 的 课程 设计 方案 的 建 
议 。 最 后 对 于 本 章 所 涉及 的 软件 包 及 相关 信息 进行 说 明 。 


11.1 基于 PL/0 编译 器 的 课程 设计 


对 于 Wirth 的 PL/0 编译 器 进行 详细 剖析 ,有 助 于 学 生 对 编译 器 建立 起 基本 的 感性 认 
识 。 在 此 基础 上 ,可 以 派生 出 各 类 不 同 的 课程 设计 任务 ,使 学 生体 验 到 自己 构造 编译 器 的 乐 
趣 。 下 面 是 作者 在 教学 实践 中 尝试 过 的 一 些 做 法 ,可 供 教师 制定 课程 设计 方案 时 参考 。 

一 个 方面 的 工作 是 改变 编译 器 的 构造 方法 ,利用 构造 工具 lex 与 yace 重新 实现 PL/0 
编译 器 。 最 基本 工作 是 实现 一 个 同 Wirth 的 手工 编写 的 PL/0 编译 器 功能 一 样 的 单 遍 编 译 
器 。 词 法 分 析 用 lex 或 手工 方式 实现 ,而 语法 分 析 、 语 义 分 析 以 及 代码 生成 都 借助 yace 来 实 
现 ,后 者 得 到 的 翻译 程序 与 词法 分 析 程 序 联 用 就 得 到 一 个 完整 的 PL/0 编译 器 。 同 Wirth 
的 PL/0 编译 器 一 样 , 该 编译 器 生成 的 目标 代码 可 以 直接 在 类 P-code 虚拟 机 上 运行 。 实 现 
类 P-code 虚拟 机 的 解释 程序 不 变 。 

另 一 个 方面 的 工作 是 改变 编译 器 的 组 织 方式 ,将 原来 的 单 遍 方式 改变 为 多 遍 方式 。 例 
如 ,在 词法 和 语法 分 析 结 束 后 生成 抽象 语法 树 ,再 基于 抽象 语法 树 构 造 符号 表 , 然 后 进行 语 
义 分 析 , 最 后 生成 类 P-code 目标 代码 。 抽 象 语法 树 的 结 点 类 型 和 具体 定义 需要 自行 设计 。 
词法 和 语法 分 析 程 序 可 以 是 手工 实现 ,也 可 以 用 lex 和 yacc 工具 实现 。 

还 有 一 个 重要 的 方面 就 是 根据 各 自 的 需求 对 PL/0 语言 进行 扩充 ,实现 扩展 的 PL/0 语 
言 的 编译 器 。 例 如 ,作者 在 某 一 次 编译 原理 的 课程 实验 中 所 要 求 的 PL/0 语言 扩充 是 在 
PL/0 语言 的 基础 上 增加 对 整 型 一 维 数组 的 支持 ,扩充 IF-THEN-ELSE 条 件 语句 ,增加 
REPEAT 语句 ,支持 带 参 数 的 过 程 和 增加 注释 ,具体 如 下 : 

(1) 整 型 一 维 数组 。 数 组 的 定义 格式 为 


VAR <A RRA SC FRS SERS) 


FEHB SRS Bb SR FE EE BRIG FES EBL Di CH ER YOY A «BA i ee e 
的 表达 式 ,包括 无 符号 整数 .常量 或 者 变量 和 它们 的 组 合 。 例 如 ,假设 a 是 常量 ,b 是 整 型 变 
量 ,c 是 数组 ,下 面 这 些 访问 方式 都 应 该 可 以 使 用 : 
c(Cl1),c(a),c(b),cCb 十 cC1)) 
(2) 扩充 条 件 语句 。 格 式 为 
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二条 件 语句 二 :一 IF 二 条 件 > THEN 二 语句 之 [ELSE <H>] 
(3) 增加 REPEAT 语句 。 格 式 为 


去 重复 语句 4 一 REPEAT 一 语句 之 UNTIL <eft> 

(4) 支持 带 参数 ( 传 值 参数 ) 的 过 程 。 定 义 和 调 用 形式 为 

二 过 程 首部 > :: 二 PROCEDURE <id> [< 形式 参数 >{ ,一 形式 参数 之 })] ; 
<HR> ::= CALL <<id>['(< 传 值 参数 > { ,一 传 值 参 数 > d] 


(5) 增加 注释 。 单 行 注释 ,以 {开始 ,以 } 结 束 ,注释 内 容 不 包括 {和 )。 
扩充 后 , 原 有 语法 定义 ( 见 1.4.2 节 ) 中 相应 部 分 的 变化 情况 汇总 如 下 : 


去 变量 说 明 部 分 二 :: 二 VAR 二 变量 声明 > { ,一 变量 声明 二 } ; 


去 变量 声明 之 :: 二 <id>|<id>(<®AR>.<BAR>) 

二 数组 界 二 ::= <id> | <integer> 

二 形式 参数 > ::= <id> 

去 过 程 首部 二 :: 二 ”PROCEDURE 一 id>[('< 形 式 参 数 >{, 天 形式 参数 之 )7]; 
一 语句 之 n= .| 王 重复 语句 之 | ..… 

去 赋值 语句 二 n= 过 变量 引用 二 := 二 表达 式 二 

二 变量 引用 二 t= <id>|<id>(<#RIKR> 

去 条 件 语 名 之 :: 二 IF 二 条 件 > THEN 二 语句 之 [ELSE 二 语句 之 ] 
<AF> :一 所 变量 引用 > | <integer> | (<AR> 

一 重复 语句 之 :: 二 REPEAT 一 语句 之 UNTIL 二 条 件 > 

二 过 程 调用 语句 > ::= CALL < 王 id>["( 一 传 值 参数 > { ,一 传 值 参数 > 39) 
去 传 值 参数 二 :: 二 < 表达 式 > 

<HR> :一 READ ' 过 变量 引用 二 { ,二 变量 引用 > }9' 


提示 : 为 了 支持 带 参 数 的 过 程 和 一 维 数组 ,对 类 P-code 虚拟 机 还 应 该 进行 相应 的 扩 
充 。 如 果 是 采用 多 遍 的 组 织 方式 , 则 中 间 表 示 层 (如 抽象 语法 树 ) 也 需要 相应 的 扩充 。 

另外 ,作为 课程 设计 的 实验 可 分 阶段 布置 和 检查 。 例 如 ,若是 分 两 个 阶段 ,可 将 词法 分 
析 和 语法 分 析 作 为 第 一 阶段 ,将 语义 分 析 和 代码 生成 作为 第 二 阶段 。 

从 清华 大 学 出 版 社 网 站 可 以 获取 不 同 语言 (Pascal,C 和 Java) 版 本 的 PL/0 编译 器 源 
码 , 同 时 附带 部 分 PL/0 源 程序 (可 选 作 测 试用 例 ) 。 根 据 不 同 的 课程 设计 需求 ,应 当 对 测试 
用 例 集合 进行 相应 的 补充 /完善 /删除 。 


11.2 基于 Decaf 编译 器 的 课程 设计 


2001 年 起 ,作者 所 在 的 “编译 原理 ”教学 组 借鉴 Stanford 大 学 课程 CS143 的 课程 实验 
框架 (其 原始 框架 由 Julie Zelenski 设计 ) 开 展 相 关 实 验 教学 工作 。 该 实验 框架 设计 实现 一 
种 简单 面向 对 象 语言 Decaf 的 编译 器 。 

Decaf 是 一 种 强 类 型 的 , 单 继承 的 简单 面向 对 象 语言 .是 用 于 教学 的 语言 ,曾经 在 
Stanford. MIT. Berkeley, University of Tennessee. Brown. Texas A&M，Southern 
Adventist, North Carolina 以 及 Simon Fraser 等 多 所 大 学 的 相关 课程 中 使 用 。Decaf 仅 代 
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表 一 种 语言 设计 的 理念 ,各 校 的 课程 实验 框架 和 语言 版 本 不 尽 相 同 。 

相 比 2001 年 Stanford 大 学 课程 CS143 的 Decaf 编译 器 ,作者 所 在 教学 团队 对 课程 实 
验 框架 进行 了 多 次 调整 ,基本 稳定 时 主要 有 两 方面 改变 : 一 是 将 原先 实验 框架 的 开发 语言 
由 C++ 改 为 Java, 二 是 将 实验 框架 由 原来 的 单 遍 组 织 改 为 多 遍 组 织 。 后 者 也 参考 了 
Berkeley 大 学 课程 CS164 的 COOL 课程 项 目 ( 设 计 者 Alex Aiken)。 经 过 这 些 变化 ,从 
2007 年 春季 学 期 起 ,我 们 也 将 原先 的 Decal 编译 器 称 为 Mind 编译 器 或 Decaf/Mind 编译 
器 ,同时 将 Decaf 语言 称 为 Mind 语言 或 Decaf/Mind 语言 (每 届 学 生 有 所 不 同 )。 然 而 ,为 
方便 溯源 ,本 书 中 仍 将 这 一 课程 实验 中 的 编译 器 框架 称 为 Decaf 编译 器 ,将 它 所 实现 的 语言 
统称 为 Decaf 语言 。 

本 节 主 要 介绍 Decaf 编译 器 的 设计 框架 以 及 实现 代码 的 主体 结构 。 根 据 作者 在 相关 课程 
中 的 具体 安排 ,Decaf 编译 器 的 实验 分 为 5 个 阶段 ,本 节 的 内 容 将 分 这 些 阶段 来 介绍 。 相 关 课 
程 教师 从 本 书 的 出 版 单位 可 以 获取 Decal 编译 器 实验 框架 的 最 新 稳定 版 软件 包 。 本 节 的 最 后 
将 简介 作者 在 教学 实践 中 尝试 过 的 一 些 做 法 , 供 教师 在 具体 制定 课程 设计 方案 时 参考 。 


11.2.1 Decaf 编译 器 实验 的 总 体 结构 
Decaf 编译 器 的 工作 原理 如 图 11. 1 所 示 。 我 们 将 实验 框架 分 成 如 下 5 个 阶段 : 


Decaf 程 序 @oSeeeescsees 4 
sl | 阶段 一 | 语义 分 析 i 
Ez | ra% |! 
pa spg ien || 人 Pie cee |! 
p La AST 生 成 语法 检查 | | 
人 G) 类 型 检查 | 

过 | 1 
T | 。 中 间 代 码 优化 阶段 二 
| 生成 汇编 代码 | 三 地 | | 
| (1) 指令 选择 1! 址 码 !| (O 建 程序 流 图 H 
| a (2) 数据 流 分 析 | 
L ORERE Si) G) 代 码 优化 ft ho | 
wax [o aaa 阶段 三 


MIPS 汇 编 代码 
11.1 Decaf 编译 器 实验 的 总 体 结构 


阶段 一 : 词法 分 析 和 语法 分 析 。 借 助 lex 和 yace 或 者 手工 编写 代码 实现 词法 和 语法 分 
析 ,一 遍 扫描 源 程序 后 直接 产生 一 种 高 级 中 间 表 示 , 即 实验 指定 的 抽象 语法 树 (AST) 。 

阶段 二 : 语义 分 析 。 遍 历 抽象 语法 树 构造 符号 表 .实现 静态 语义 检查 ( 非 上 下 文 无 关 语 
法 检查 以 及 类 型 检查 等 ) ,产生 带 标注 的 抽象 语法 树 decorated AST)。 这 一 阶段 对 抽象 语 
法 树 进 行 两 遍 扫描 : 第 一 遍 扫描 的 时 候 建立 符号 表 的 信息 ,并 且 检 测 符号 声明 冲突 以 及 跟 
声明 有 关 的 符号 引用 问题 (例如 A 继承 于 B, 但 是 B 没 有 定义 的 情况 ); 第 二 遍 扫 描 的 时 候 
检查 所 有 的 语句 以 及 表达 式 的 参数 的 数据 类 型 。 

阶段 三 : 中 间 代码 生成 。 将 带 标注 的 抽象 语法 树 所 表示 的 输入 程序 翻译 成 适合 后 期 处 
理 的 另 一 种 中 间 表 示 方 式 , 即 三 地 址 码 TAC, 并 在 合适 的 地 方 加 入 诸如 检查 数组 访问 越界 、 
数组 大 小 非法 等 运行 时 错误 的 内 容 。 本 阶段 完成 后 ,三 地 址 码 程序 可 在 实验 框架 所 给 的 
TAC 模拟 器 上 执行 。 

+ 298 + 


阶段 四 : 中 间 代 码 优化 。 目 前 的 实验 框架 中 只 
量 ” 数 据 流 分 析 ( 包 括 以 基本 块 为 单位 的 分 析 , 以 及 以 基本 块 内 单个 语句 为 单位 的 分 析 ) 等 方 
面 的 代码 ,未 包含 任何 与 中 间 代码 优化 算法 相关 的 内 容 。 


包含 基本 块 划 分 、 流 图 构建 以 及 “活跃 变 


阶段 五 : 目标 代码 生成 。 实 验 框架 包括 汇编 指令 选择 、 寄 存 器 分 配 和 栈 帧 管理 的 内 容 。 
完成 这 些 阶段 以 后 , 即 可 产生 出 适合 实际 MIPS 机 器 上 的 汇编 代码 ,可 以 利用 由 美国 


Wisconsin 大 学 的 MIPS R2000/R3000 模拟 器 SPIMI5] 来 运行 这 些 汇编 代码 。 在 作者 所 在 
系 开设 的 “计算 机 系统 综合 实验 ”课程 中 , 则 要 求学 生 在 自己 设计 的 CPU 以 及 教学 操作 系 
统 环境 下 执行 这 些 汇编 代码 (汇编 器 以 及 装 入 /链接 器 使 用 第 三 方 工 具 )。 


在 Decaf 编译 器 实验 框架 的 软件 包 中 ,可 找到 Decaf 编译 器 的 驱动 程序 代码 ,由 Diver 


类 ( 见 sre. decaf. Driver) 的 主 函 数 给 出 : 


public final class Driver { 


public static void main(String[] args) throws IOException { 


driver=new Driver() ; 
driver. option= new Option(args) ; 
driver, init ; 


driver. compile ; 


} 


调用 initO 〇 函数 进行 必要 的 编译 初始 化 工作 : 


public final class Driver { 
private void init() { 
lexer= new Lexer(option. getInput()) ; 

parser= new Parser(); 
lexer. setParser( parser) ; 
parser. setLexer(lexer) ; 
errors= new ArrayList<DecafError>() ; 
table= new ScopeStack(); 


} 
调用 compile O 函数 进入 编译 主体 : 


public final class Driver { 
private void compile() { 
Tree. TopLevel tree= parser. parseFile() ; 
BuildSym. buildSymbol(tree) ; 
TypeCheck. checkType( tree) ; 


//8) driver 

// 置 编译 选项 指示 不 同 阶段 实验 
// 编 译 初始 化 

// 编 译 主体 


// 创 建 lexer 

// 创 建 parser 

// 关 联 lexer 的 parser 
// 关 联 parser 的 lexer 
// 初 始 化 错误 信息 

// 创 建 作用 域 栈 


// 词 法 语法 分 析 并 建 AST 
// 遍 历 AST 建 符号 表 , 进 行 部 分 静态 语义 检查 
// 遍 历 AST 完成 静态 类 型 检查 


PrintWriter pw=new PrintWriter(option. getOutput()) ; 


Translater tr=Translater. translate( tree) ; 


// 遍 历 AST 翻译 至 三 地 址 码 


List<FlowGraph> graphs=new ArrayList<FlowGraph>( ; // 创 建 流 图 
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for (Functy func : tr. getFuncs()) { 


graphs. add(new FlowGraph(func)); // 构 造 并 添加 每 个 函数 的 流 图 
} 
MachineDescription md=new Mips(); // 创 建 MIPS 汇编 文件 接口 
md. setOutputStream( pw) ; // 置 pw 为 汇编 文件 接口 的 输出 流 
md. emitVTable(tr. getVtables()); // 生 成 并 输出 Vtable 信息 
md. emitAsm(graphs) ; // 生 成 并 输出 MIPS 指令 序列 


} 


上 述 compile() 的 代码 省 略 了 源码 中 用 于 阶段 性 检查 以 及 输出 显示 的 代码 片段 。 
实验 第 一 阶段 的 工作 对 应 


Tree. TopLevel tree= parser. parseFile( ; // 词 法 语法 分 析 并 建 AST 
实验 第 二 阶段 的 工作 对 应 

BuildSym. buildSymbol(tree) ; // 遍 历 AST 建 符号 表 , 进 行 部 分 静态 语义 检查 
TypeCheck. checkType(tree) ; [DA AST 完成 静态 类 型 检查 

实验 第 三 阶段 的 工作 对 应 

Translater tr 一 Translater. translate(tree) // 遍 有 历 AST 翻译 至 三 地 址 码 


实验 第 四 阶段 工作 中 控制 流 图 的 创建 对 应 


List<FlowGraph> graphs=new ArrayList<FlowGraph> WW 创建 流 图 
for (Functy func : tr. getFuncs()) { 


graphs. add(new FlowGraph(func) ) ; // 构 造 并 添加 每 个 函数 的 流 图 
} 
实验 第 五 阶段 的 工作 对 应 
md, emitVTable(tr. getVtables()) ; // 生 成 并 输出 Viable 信息 
md. emitAsm(graphs) ; // 生 成 并 输出 MIPS 指令 序列 


11.2.2 词法 和 语法 分 析 ( 阶 段 一 ) 
词法 和 语法 分 析 的 对 象 是 编译 器 的 源 语言 Decaf 语言 。 关 于 源 语言 的 定义 ,细节 可 参 
见 实验 框架 软件 包 中 的 《Decaf 语言 规范 》, 这 里 仅 列 出 EBNF 形式 的 Decal 语言 语法 : 


Program ::= ClassDef* //*x* ,” 表 示 一 个 或 多 个 x 的 出 现 , 下 同 
VariableDef | ++= Variable ; 


Variable Type identifier 
Type int| bool | string| void | class identifier) Type {' 小 
Formals Variable* ,| e [x ,表示 一 个 或 多 个 以 逗号 分 隔 的 x, 下 同 
FunctionDef + :一 [static] Type identifier '(' Formals )' StmtBlock 

//“( x)" #878 0 或 1 个 x 的 出 现 ,下 同 
ClassDef ::= class identifier extends identifier '{' Field” 小 

//“x ”表示 0、1 或 多 个 x 的 出 现 , 下 同 
Field : :一 VariableDef | FunctionDef 
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StmtBlock r= Smt) 


Stmt +t = VariableDef | SimpleStmt; | IfStmt| WhileStmt| ForStmt| BreakStmt; | 
ReturnStmt; | PrintStmt; | StmtBlock 

SimpleStmt ::= LValue=Expr|Callle 

LValue ::=[ Expr. ] identifier | Expr [' Expr 小 

Call ::=[ Expr. ] identifier (' Actuals )' 

Actuals +t=Expr’, | e 

ForStmt +:=for '(' SimpleStmt ; BoolExpr ; SimpleStmt )' Stmt 

WhileStmt + = while '(' BoolExpr ')' Stmt 

IfStmt 'C BoolExpr ')' Stmt [else Stmt] 

ReturnStmt +? =return | return Expr 

BreakStmt +t =break 

PrintStmt +: =Print '(' Expr*, ')' 

BoolExpr +: = Expr 

Expr ::=Constant | LValue | this | Call | 'C Expr 9' |Expr + Expr | Expr — Expr | 


Expr * Expr | Expr / Expr | Expr % Expr | — Expr | Expr < Expr | 
Expr <=Expr | Expr>Expr | Expr>=Expr | Expr==Expr | 
Expr !=Expr | Expr &-& Expr | Expr || Expr | ! Expr | 
ReadInteger 'C ) | ReadLine (' )' | new identifier 'C 9' | 
new Type {' Expr J'| 
instanceof 'C Expr, identifier ')' | 'C class identifier )' Expr 
Constant + = intConstant | boolConstant| stringConstant| null 


其 中 ,以 下 终结 符 对 应 关键 字 ( 保 留 字 ) : 

bool. break. class. else, extends, for, if, int. new. null. return, string, this, void. while. 
static, Print. ReadInteger. ReadLine. instanceof 

布尔 常量 (boolConstant) 是 true 或 者 false, 如 同 关 键 字 一 样 ,它们 也 是 保留 字 。 一 个 整 
型 常量 (intConstant) 既 可 以 是 十 进 制 整数 也 可 以 是 十 六 进 制 整数 。 一 个 字符 串 常 量 
(stringConstant) 是 被 一 对 双 引 号 包围 的 可 打印 ASCI 字符 序列 。 

Decaf 有 一 个 非常 小 的 标准 库 , 可 以 用 于 简单 的 IO 和 内 存 分 配 。 标 准 库 函 数 包括 
Print ,ReadInteger,ReadLine 和 new. 

单行 注释 是 以 // 开 头 直 到 该 行 的 结尾 。Decaf 中 没有 多 行 注释 。 如 果 单 行 注释 出 现在 
程序 末尾 ,那么 单行 注释 的 结尾 需要 换行 。 

Decaf 支持 反射 函数 instanceof ,可 以 通过 instanceof 来 判断 一 个 表达 式 的 结果 是 否 是 
某 个 类 的 实例 。 

在 Decaf 编译 器 实验 框架 的 软件 包 中 ,词法 和 语法 分 析 程序 是 借助 自动 构造 工具 lex 和 
yace 实现 的 ,实现 词法 和 语法 分 析 的 一 遍 扫描 源 程序 后 直接 产生 一 种 高 级 中 间 表 示 ( 实 验 指定 
的 抽象 语法 树 ) 。 使 用 的 lex 和 yace 版 本 分 别 为 Jtlexc 和 BYACC/JED 。 

阶段 一 实验 的 重点 是 掌握 lex 和 yace 的 用 法 ,体会 使 用 编译 器 自动 构造 工具 的 好 处 ,并 
且 结 合 实践 体会 正规 表达 式 有限 自动 机 、 上 下 文 无 关 文 法 .LALR(1) 分 析 、 语 法 制导 翻译 
等 理论 是 如 何在 实践 中 得 到 运用 的 。 

使 用 lex 和 yace 的 核心 是 利用 正规 表达 式 给 出 词法 规则 ,而 利用 上 下 文 无 关 文法 给 出 
语法 规则 。 另 外 ,还 要 注意 lex 和 yace 是 如 何 联 用 的 。 另 外 ,对 于 EBNF 形式 的 源 语言 语 
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法 定义 ,需要 给 出 等 价 的 上 下 文 无 关 文法 定义 , 才 可 能 使 用 yacc 工具 。 
要 注意 ,使 用 yacc 工具 实际 上 是 生成 一 个 语法 制导 翻译 程序 ,该 程序 可 以 将 通过 了 词 
法 和 语法 检查 的 源 程序 转换 为 相应 的 抽象 语法 树 。 例 如 ,对 于 以 下 Decaf 程序 片段 P1: 


class Computer { 
int cpu; 
void Crash(int numTimes) { 
int i; 
for (i=0; i < numTimes; i=i+1) 
Print("sad\n") 5 


} 
class Mac extends Computer { 
int mouse; 
void Crash(int numTimes) { 
Print("ack!") ; 


} 
class Main { 
static void main() { 
class Mac powerbook; 
powerbook= new Mac(); 
powerbook. Crash(2) ; 


} 
其 相应 的 抽象 语法 树 ( 以 缩 进 格式 体现 父子 关系 ) 形 如 


program 
class Computer <empty> 
vardecl cpu inttype 
func Crash voidtype 
formals 
vardecl numTimes inttype 
stmtblock 
vardecl i inttype 
for 
assign 
varref i 
intconst 0 
les 
varref i 
varref numTimes 
assign 
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varref i 
add 
varref i 
intconst 1 
print 
stringconst "sad\n" 
class Mac Computer 
vardecl mouse inttype 
func Crash voidtype 
formals 
vardecl numTimes inttype 
stmtblock 
print 
stringconst "ack!" 
class Main <empty> 
static func main voidtype 
formals 
stmtblock 
vardecl powerbook classtype Mac 
assign 
varref powerbook 
newobj Mac 
call Crash 
varref powerbook 


intconst 2 


对 照 程序 片段 P1 ,不 难 理解 上 述 抽象 语法 树 中 各 结 点 的 含义 。 实 验 框架 中 定义 好 了 需 
要 用 到 的 各 种 抽象 语法 树 结 点 对 应 的 数据 结构 , 见 sre. decaf. tree 包 中 的 类 。 在 第 一 阶段 
动手 实现 之 前 应 熟悉 这 些 数 据 结构 。 


11.2.3 语义 分 析 ( 阶 段 二 ) 


这 一 阶段 将 基于 抽象 语法 树 完 成 两 项 任务 : 建立 符号 表 的 信息 ,实现 静态 语义 检查 。 

静态 语义 检查 主要 包括 非 上 下 文 无 关 语 法 检查 以 及 类 型 检查 。 实 现 静 态 语 义 检查 时 ， 
需要 一 个 重要 的 数据 结构 , 即 符号 表 。 符 号 表 同 时 也 是 语义 信息 的 重要 载体 ,在 后 续 阶 段 中 
还 会 经 常用 到 。 

例如 ,对 于 11. 2. 2 节 中 程序 片段 Pl 所 对 应 的 抽象 语法 树 .经 第 一 遍 扫描 的 时 候 建立 符 
号 表 的 信息 (同时 检测 符号 声明 冲突 以 及 跟 声明 有 关 的 符号 引用 问题 ) 后 ,附加 了 相应 的 符 
号 表 以 及 作用 域 等 信息 , 形 如 : 


GLOBAL SCOPE: / * Global 作用 域 * / 
(1,1) —> class Computer /* (1,1) 表示 符号 在 源 程序 中 的 位 置 , 下 同 * / 
(10,1) —> class Mac : Computer / * Mac 的 父 类 指针 指向 Computer * / 
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(17,1) —> class Main 
CLASS SCOPE OF Computer’: / * # Computer 的 Class 作用 域 * / 
(2,9) —> variable cpu : int 
(3,10) —> function Crash : class : Computer—>int 一 二 void 
FORMAL SCOPE OF Crash’: /方法 Crash 的 Formal 作用 域 * / 
(3,10) —> variable @this : class ; Computer 
(3,20) —> variable @numTimes ; int 


LOCAL SCOPE: /* 方 法 Crash 的 Local 作用 域 * / 
(4,13) —> variable i ; int 
CLASS SCOPE OF Mac'; / * & Mac 的 Class 作用 域 * / 


(11,9) —> variable mouse : int 

(12,10) —> function Crash : class : Mac —>int —>void 

FORMAL SCOPE OF Crash’: /# 方 法 Crash 的 Formal 作用 域 * / 
(12,10) —> variable @this : class : Mac 
(12,20) —> variable @numTimes : int 


LOCAL SCOPE: / * FE Crash 的 Local 作用 域 * / 
CLASS SCOPE OF ‘Main’; / * # Main 的 Class 作用 域 * / 
(18,17) —> static function main ; void 
FORMAL SCOPE OF ' main’: / * FE main 的 Formal 作用 域 * / 
LOCAL SCOPE: / * FE main 的 Local 作用 域 * / 


(19,19) —> variable powerbook ; class ; Mac 


实验 中 ,符号 表 采 用 多 级 结构 ,为 每 个 作用 域 单 独 建 立 一 个 符号 表 , 仅 记录 当前 作用 域 
中 声明 的 标识 符 。 有 4 种 类 型 的 作用 域 , 即 全 局 (Global) 作 用 域 , 类 (Class) 作 用 域 、 形 参 
(Formal) 作 用 域 以 及 局 部 (Local) 作 用 域 。 图 11. 2 是 符号 表 结 构 的 一 个 示意 图 (以 11. 2. 2 节 
中 程序 片段 Pl 为 例 , 并 省 略 一 些 信息 ) 。 


Global 作用 域 的 符号 表 Computer 类 Class 作 用 域 的 符号 表 
名 字 类 别 | 描述 名 字 类 别 | 类 型 描述 
Computer | Class == cpu variable | int 
Mac Class Crash [function |class:Computer->int->void | 
Main Class | 略 

Crash 函 数 的 描述 
Mac 类 的 描述 copra | static? | main 函 数 ? | 函数 形 参 域 
RÆ A 父 类 | 类 域 N N | 


"Ip 二 


Crash 函 数 Formal 作 用 域 符 号 表 


Crash 函 数 体 Local 作 用 域 符号 表 形 参 名 字 | PSE | 函数 体 域 
名 字 | 类 别 | 类 型 | ARRIK @this |class:Computer 
i |variable| int Nil @numTimes Int 

t 


图 11.2 Decaf 编译 器 符号 表 结 构 示意 


注意 : 方法 Crash 的 Formal 作用 域 中 含有 名 字 this, 这 是 在 参数 表 开 头 自动 加 入 的 一 
个 隐 含 参数 ,涉及 this 关键 字 的 默认 处 理 方法 。 
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当 处 理 到 程序 的 某 一 位 置 时 ,可 以 访问 的 作用 域 称 为 开 作 用 域 ,否则 为 闭 作用 域 。 需 要 
建立 一 个 栈 来 管理 整个 程序 的 作用 域 : 每 打开 一 个 作用 域 , 就 把 该 作用 域 压 人 栈 中 ;每 关闭 
一 个 作用 域 ,就 从 栈 项 弹出 该 作用 域 。 这 样 ,这 个 作用 域 栈 中 就 记录 着 当前 所 有 打开 的 作用 
域 的 信息 , 栈 项 元 素 就 是 当前 最 内 层 的 作用 域 。 查 找 一 个 变量 时 ,按照 自 栈 顶 向 下 的 顺序 查 
找 栈 中 各 作用 域 的 符号 表 , 最 先 找到 的 就 是 最 靠近 内 层 的 变量 。 

如 图 11. 3 所 示 , 当 处 理 到 for 语句 时 ,当前 作用 域 栈 中 包含 4 个 开 作 用 域 。 


class Computer{ 名 字 | 类 别 [ZW Pattee ee 
int cpu; = iable | i Nil 
void Crash (int numTimes){ i variable} int i 
int d; ee TEBE = 
for (i=0; i<num|Times; i=i+1) 形 参 名 字 | ” 形 参 类 型 | 函数 体 域 
Print ("sad\n"); Local @this |class:Computer 
} } Formal (@numTimes, Int 
Class 
class Mac extends Computer{ Global | 名 字 | 类 别 | 描述 
int mouse; Computer| Class 
void Crash (int numTimes) { 
Print ("ack!"); Mac | Class 
} Main | Class 
} 
A 名 字 | 类 别 类 型 描述 
class Main{ = = 
static void main() { = cpu | variable int 
class Mac powerbook; Crash | function |class:Computer->int->void 


powerbook=new Mac(); 
powerbook.Crash (2); 
} 
} 


11.3 Decaf 编译 器 作用 域 栈 示意 


有 一 个 问题 值得 注意 。 对 于 上 述 代码 ( 见 图 11. 3) ,在 类 Mac 的 Crash 方法 中 可 以 访问 
由 父 类 继承 下 来 的 属性 cpu。 但 进入 这 个 Crash 方法 的 Local 作用 域 后 ,cpu 并 不 在 某 个 开 
作用 域 中 ( 开 作用 域 Global 中 只 有 父 类 标识 符 )。 然 而 ,能 否 直接 引用 父 类 继承 下 来 的 属性 
取决 于 extends 的 实现 。 具 体 到 我 们 的 decal 实验 ,是 可 直接 引用 的 。 这 说 明 , 虽 然 作 用 域 
与 可 见 性 二 者 是 密切 关联 的 ,但 二 者 有 着 不 同 的 含义 。 从 嵌 套 层次 来 看 ,将 cpu 看 作 开 作用 
域 中 的 符号 是 不 恰当 的 ,然而 ,继承 性 决定 了 cpu 的 可 见 性 。 一 些 实用 的 语言 ,如 Java, 
C++ 等 ,在 语言 规范 里 加 入 了 public, private 之 类 的 关键 字 来 控制 子 类 对 一 些 成 员 变量 和 
成 员 函 数 的 访问 。 我 们 的 decaf 实验 中 默认 了 类 似 public 的 继承 属性 。 

实验 框架 中 ,建立 符号 表 是 对 于 抽象 语法 树 (AST) 的 第 一 遍 扫描 ,与 此 同时 也 检测 符号 声 
明 冲 突 以 及 跟 声 明 有 关 的 符号 引用 问题 。 由 于 整个 框架 中 要 多 次 遍历 抽象 语法 树 ,每 一 次 遍 
历 都 要 针对 AST 的 所 有 结 点 进行 同类 的 处 理 , 处 理 到 不 同 结 点 时 有 不 同 的 行为 。 为 了 方便 地 
实现 这 一 需求 ,代码 框架 中 使 用 了 Visitor 设计 模式 ,并 且 和 8. 4 节 所 介绍 的 结构 相 类 似 。 

代码 框架 中 定义 了 一 个 Tree 抽象 类 ( 见 软 件 包 中 的 src. decaf. tree. Tree) ,其 中 为 AST 
的 每 一 类 结 点 嵌 套 定义 了 静态 内 部 类 (这 里 使 用 嵌 套 的 类 纯 属 技术 考虑 ,可 分 开 定 义 ) 。 
Tree 中 定义 了 接受 Visitor 对 象 的 抽象 方法 accept. HF AST 结 点 对 应 的 内 部 类 均 重 载 
accept 方法 。Tree 抽象 类 和 各 个 AST 结 点 子 类 之 间 的 继承 关系 对 应 第 8 章 的 图 8. 12、 
图 8. 17.。 另 外 ,针对 抽象 语法 树 的 Visitor 类 也 封装 在 Tree 抽象 类 的 定义 中 。 类 Tree 的 
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代码 结构 如 下 : 


public abstract class Tree { 


public void accept( Visitor v) { 
v. visit Tree( this) ; 
} 
public static class TopLevel extends Tree { 
public void accept( Visitor v) { 
v. visit TopLevel(this) ; 


public void accept( Visitor v) { 
v. visitClassDef(this) ; 


public static class MethodDef extends Tree { 


public void accept( Visitor v) { 
v. visitMethodDef( this) ; 


public void accept( Visitor v) { 
v. visitVarDef( this) ; 


public static abstract class Visitor { 
public Visitor() { 
super() ; 


} 


public void visitTopLevel(TopLevel that) { 


visit Tree(that) ; 
} 
public void visitClassDef(ClassDef that) { 
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// 接 受 Visitor 对 象 的 方法 


//AST 根 结 点 ,显示 为 program 


// 重 载 接受 Visitor 对 象 的 方法 


// 定 义 class 的 AST 结 点 


// 重 载 接受 Visitor 对 象 的 方法 


// 定 义 method 的 AST 结 点 


// 重 载 接受 Visitor 对 象 的 方法 


// 定 义 成 员 变量 的 AST 结 点 


// 重 载 接受 Visitor 对 象 的 方法 


// 省 略 其 他 30 个 AST 结 点 的 静态 内 部 类 


// 遍 历 并 处 理 树 结 点 的 Visitor 抽象 类 * / 


// 根 结 点 默认 的 visit 方 法 


visitTree( that) ; //ClassDef 结 点 默认 的 visit 方 法 
} 
public void visitMethodDef(MethodDef that) { 
visit Tree(that) 5 //MethodDef 结 点 默认 的 visit 方法 
} 
public void visitVarDef(VarDef that) { 


visit Tree(that) ; //VarDef 结 点 默认 的 visit 方法 
} 
// 省 略 其 他 30 个 AST 结 点 类 的 visit 方法 
public void visitTree(Tree that) { // 各 种 结 点 默认 的 visit 方法 


assert false; 


} 


现在 ,就 可 以 通过 继承 Visitor 类 ,并 继承 或 重 载 其 中 的 visit 方法 ,来 实现 每 一 遍 扫 描 
抽象 语法 树 时 需要 完成 的 具体 工作 。 例 如 ,实验 框架 软件 包 的 sre. decaf. typecheck. 
BuildSym 中 定义 了 Visitor 的 一 个 子 类 BuildSym ,代码 如 下 : 


public class BuildSym extends Tree. Visitor { 
private ScopeStack table; //table 为 作用 域 栈 
public static void buildSymbol(Tree. TopLevel tree) {”// 这 一 遍 扫描 的 入 口 函 数 
new BuildSym(Driver. getDriver(). getTable()). visit TopLevel(tree) ; 
} 
public void visitTopLevel(Tree. TopLevel program) {  // 重 载 根 结 点 的 visit WH 


program, globalScope= new GlobalScope() ; // 设 置 Global 作用 域 
table. open(program. globalScope) ; // 当 前 Global 作用 域 和 人 栈 
for (Tree. ClassDef cd : program. classes) { // 对 全 部 类 定义 进行 循环 


Class c=new Class(cd. name, cd. parent,cd. getLocation()) ; 
Class earlier=table. lookupClass(cd. name) ; 
if (earlier !=null) { 
issueError(new DeclConflictError(cd. getLocation() ,cd. name, 


earlier. getLocation())) ; // 报 错 : 之 前 已 有 同名 的 class 定义 
} else { 
table. declare(c) // 新 声明 的 类 加 入 当前 开 作用 域 (Global) 
} 
cd. symbol=c; // 在 类 声明 结 点 的 符号 表 中 加 入 这 个 新 声明 的 类 
} 
for (Tree. ClassDef cd : program. classes) { // 对 全 部 类 定义 进行 循环 


Class c 一 cd. symbol; 
if (cd. parent ! 一 null &-& c. getParent()==null) { 
issueError(new ClassNotFoundError(cd. getLocation ,cd. parent) ); 
c. dettachParent() ; // 报 错 : 父 类 未 声明 
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} 
if (caleOrder(c) <= calcOrder(c. getParent())) { 
issueError(new BadInheritanceError(cd. getLocation() )) ; 


c, dettachParent© ; // 报 错 : 子 类 声明 在 父 类 之 前 


} 
for (Tree. ClassDef cd : program. classes) { 
cd. symbol. createTypeQ ; // 为 每 个 类 定义 创建 class 类 型 
} 
for (Tree. ClassDef cd : program. classes) { 
cd. accept( this) ; // 遍 历 每 个 类 定义 并 执行 相应 的 visit 方 法 
if(Driver. getDriver(). getOption(). getMainClassName(). equals( 
cd, name)) { 
program. main= cd. symbol; // 设 定 main 类 


} 
for (Tree. ClassDef cd ; program. classes) { // 检 查 重 载 合 法 性 
checkOverride(cd. symbol) ; 
} 
if (LisMainClass(program, main) ) { // 检 查 main 类 的 合法 性 
issueError(new NoMainClassError(Driver. getDriver(). getOption() 
. getMainClassName())) ; 


} 
table. close + // 关 闭 当前 开 作用 域 (Global) , 即 从 作用 域 栈 退 出 


} 
public void visitClassDef( Tree. ClassDef classDef) { // 重 载 ClassDef 结 点 的 visit 方法 


table. open(classDef. symbol. getAssociatedScope()); ”// 当 前 Class 作用 域 信 栈 
for (Tree f : classDef. fields) { 
f. accept(this) ; // 遍 历 类 定义 的 每 个 域 并 执行 相应 的 visit 方法 
} 
table. close(); // 关 闭 当前 的 Class 作用 域 , 即 从 作用 域 栈 退 出 


avy // 省 略 其 他 类 AST 结 点 重 载 的 visit 方法 


mee // 省 略 所 有 支撑 函数 (方法 ) 


BuildSym 类 中 继承 或 重 载 了 Visitor 类 中 各 类 结 点 的 visit 方法 ,用 以 建立 符号 表 的 信 
息 , 同 时 检测 符号 声明 冲突 以 及 跟 声明 有 关 的 符号 引用 问题 。 类 似 地 ,实验 框架 软件 包 中 还 
定义 了 Visitor HJ FÆ TypeCheck( 见 sre. decaf. typecheck. Typecheck, 用 以 完成 Decaf 编 
译 器 语义 分 析 过 程 中 对 抽象 语法 树 的 第 二 次 扫描 ,同时 检测 更 多 的 语义 错误 以 及 进一步 收 
集 后 续 阶 段 用 到 的 语义 信息 。 这 两 个 类 (BuildSym 和 TypeCheck) 与 Visitor 类 之 间 的 关系 
可 以 对 应 于 第 8 章 的 图 8. 13、 图 8. 14 和 图 8. 15。 定 义 TypeCheck 类 的 代码 如 下 : 
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public class TypeCheck extends Tree. Visitor { 
private ScopeStack table; //table 为 作用 域 栈 
public static void checkType(Tree. TopLevel tree) { //3%— Ha HH A PR 
new TypeCheck( Driver. getDriver©. getTable© ). visit TopLevel(tree) ; 
} 
public void visitTopLevel(Tree. TopLevel program){ ”// 重 载 根 结 点 的 visit 方法 


table. open(program. globalScope) ; // 当 前 Global 作用 域 和 人 栈 
for (Tree, ClassDef cd : program. classes) { 
cd. accept( this) ; // 遍 历 每 个 类 定义 并 执行 相应 的 visit 方法 
} 
table. close() ; // 关 闭 当 前 开 作 用 域 (Global) , 即 从 作用 域 栈 退出 


} 
public void visitBinary(Tree. Binary expr){ ”// 重 载 二 元 运算 结 点 的 visit WH 
expr. type= checkBinaryOp(expr. left,expr. right, expr. tag, expr. loc) ; 
} 
public void visitAssign(Tree. Assign assign) { // 重 载 赋值 结 点 的 visit 方法 
assign. left. accept(this) ; // 遍 历 左 边 表 达 式 并 执行 相应 的 visit 方法 
assign, expr. accept( this) ; // 遍 历 右边 表达 式 并 执行 相应 的 visit 方法 
if (lassign. left. type. equal( BaseType. ERROR) 
&& (assign. left. type. isFuncType() 
|| assign. expr. type. compatible(assign. left. type))) { 
issueError(new IncompatBinOpError(assign. getLocation , 
assign. left. type. toString() ,"=", assign. expr. type 


. toStringQ)); // 报 错 : 赋值 运算 类 型 不 兼容 


nance // 省 略 其 他 类 AST 结 点 重 载 的 visit 方法 


e // 省 略 所 有 支撑 函数 (方法 ) 


11.2.4 中 间 代 码 生成 (阶段 三 ) 


经 过 前 两 个 阶段 ,Decaf 源 程序 被 翻译 为 语义 正确 的 AST 形式 的 程序 ,并 且 附 加 了 许 
多 有 用 的 信息 ,形成 带 标注 的 AST. AST 是 一 种 高 级 中 间 表 示 形 式 , 它 完 整 保 留 了 源 程 序 
的 结构 ,并 通过 标注 信息 携带 了 源 程 序 的 语义 。 实 验 框 架 的 第 三 阶段 ,将 由 带 标注 的 AST 
生成 三 地 址 码 (Three Address Code, TAC), TAC 是 一 种 低级 中 间 表 示 形 式 , 比 较 接 近 汇 
编 语言 。 
这 一 阶段 的 实验 目标 是 训练 将 程序 从 高 级 表示 形式 变化 为 与 其 等 价 的 低级 表示 形式 的 基 
本 技能 ,并 且 对 过 程 调用 约定 .面向 对 象 机制 的 实现 方法 .存储 布局 等 内 容 能 有 较 好 的 理解 。 
实验 代码 框架 的 软件 包 sre. decaf. tac 中 定义 好 了 需要 用 到 的 所 有 的 TAC 语句 种 类 ， 
以 及 在 TAC 表示 中 使 用 的 Temp( 临 时 变量 )、Label( 标 号 )、Functy( 函 数 块 ) 和 VTable( 类 
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的 虚 函 数 表 ) 等 重要 的 数据 对 象 。 在 这 一 阶段 ,动手 实现 之 前 应 通过 实验 说 明文 档 或 阅读 代 
码 来 熟悉 这 些 TAC 语句 及 数据 对 象 的 定义 。 

其 中 ,Temp 将 与 实际 机 器 中 的 寄存 器 相对 应 ,表示 函数 的 形式 参数 以 及 函数 的 局 部 变 
量 (但 是 不 表示 类 的 成 员 变量 )。 与 实际 寄存 器 不 同 的 是 ,这 里 可 以 使 用 的 临时 变量 的 个 数 
是 无 限 的 。 

Label 表示 标号 , 即 代码 序列 中 的 特定 位 置 (也 称 为 “ 行 号 ”)。 在 实验 框架 中 有 两 种 标 
号 ,一 种 是 函数 的 入 口 标 号 , 另 一 种 是 一 般 的 跳 转 目 标 标号 。 

Temp 和 Label 都 是 用 于 函数 体内 的 数据 对 象 ,在 实验 框架 的 TAC 表示 中 ,用 Functy 
对 象 来 表示 源 程序 中 的 一 个 函数 定义 。 与 符号 表 中 的 Function 对 象 不 同 ,Functy 对 象 并 不 
包括 函数 的 返回 值 参数 表 等 信息 ,而 仅 包括 函数 的 入 口 标号 以 及 函数 体 的 语句 序列 。 

VTable 所 表示 的 是 一 个 类 的 虚 函 数 表 , 即 一 个 存放 着 各 虚 函 数 入 口 标号 的 线性 表 。 接 
下 来 会 详细 介绍 实验 框架 中 的 VTable 结 

所 有 的 Functy 对 象 和 VTable 对 象 组 合成 一 个 完整 的 程序 。 

从 上 面 对 TAC 中 间 表 示 的 描述 可 以 看 出 ,该 中 间 表 示 是 一 种 比 AST 更 低级 ,但 比 汇 
编 代码 高 级 的 表示 方式 (具有 “函数 ”"“ 虚 函数 表 ” 等 概念 )。 可 以 通过 具体 例子 先 体会 一 下 
TAC 中 间 表 示 的 样式 。 

对 于 如 下 源 程序 片段 (图 11. 3 中 代码 的 一 部 分 ) : 


for(i=0; i < numTimes; i=i+1) 
Print("sad\n") ; 


_T16=0 
_T15=_T16 
branch _L14 

_L15: 
Ti 
_T18=(_T15+_T17) 
_T15=_T18 

_L14: 
-msi < _TI1) 
if (_T19==0) branch _L16 
_T20="sad\n" 
parm _T20 
call _PrintString 
branch _L15 

_L16: 


其 中 ,变量 TI1 和 _T15 分 别 对 应 源 程序 中 的 变量 num Times 和 i;_PrintString 是 标准 库 函 
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数 入 口 ,该 库 函 数 用 于 打印 一 个 字符 串 ( 由 临时 量 _T20 作为 参数 提供 给 函数 调用 ) 。 

面向 对 象 机 制 的 运行 时 存储 组 织 是 理解 这 一 阶段 代码 框架 的 关键 之 一 。 对 于 这 一 点 ， 
9.5 节 有 一 些 基 本 的 介绍 。 这 一 阶段 的 实验 框架 中 ,采用 了 例 程 索引 表 或 虚 表 (Vtable) 的 
方案 。 但 因 我 们 的 Decaf 语言 中 有 对 运算 instanceof 的 支持 ,所 以 对 9. 5 节 介 绍 的 Vtable 
结构 进行 了 扩展 (增加 了 一 个 指向 父 类 名 称 的 指针 )。 下 面 先 通过 图 11. 3 左边 的 Decaf 源 
程序 例子 回顾 或 了 解 一 下 相关 内 容 。 

首先 ,每 个 类 都 对 应 一 个 Vtable。 图 11. 4 是 该 程序 中 3 个 类 的 Viable REA. HEPA 
数 表 的 目的 是 实现 运行 时 函数 地 址 绑 定 , 即 所 谓 的 动态 绑 定 机 制 。 由 于 静态 方法 可 以 直接 
得 到 地 址 而 直接 调用 ,因而 Vtable 中 没有 包含 静态 方法 。 如 图 11. 4 中 , Main 类 的 虚 表 中 
不 含 方法 main, 


Computer 类 的 虚 表 Mac 类 的 虚 表 Main 类 的 虚 表 
Null _Computer Null 
Computer Mac Main 
_Computer.Crash _Mac.Crash 
VTABLE (_Computer) { VTABLE (_Mac) { VTABLE (_Main) { 

<empty> _Computer <empty> 

Computer Mac Main 

_Computer.Crash; _Mac.Crash; } 


} } 
图 11.4 Decaf 编译 器 中 Vtable 结构 的 示意 


在 初始 化 对 象 时 ,会 转 到 对 象 所 属 类 的 New 函数 入 口 。 如 图 11. 5 所 示 , 执 行 
_Computer_New 将 初始 化 一 个 Computer 对 象 。 首 先 需要 申请 适当 大 小 的 堆 存 储 空 间 ( 调 
用 库 函 数 _Alloc) ,将 第 一 个 单元 置 为 指向 Computer 类 虚 表 的 指针 ,后 续 单 元 依次 存放 该 对 
象 的 成 员 变量 ( 先 放 继承 的 变量 ,并 且 辈 分 越 大 越 靠 前 )。 一 个 Computer 对 象 只 含 一 个 成 
员 变 量 cpu, 因 此 需要 分 配 两 个 单元 的 存储 空间 , 即 8B 大 小 。 据 这 些 讨论 ,大 家 不 难 理解 
_Computer_New 函 数 体 中 TAC 语句 的 含义 。 


class Computer{ 


int cpu; 
void Crash(int numTimes) { FUNCTION (_Computer_Crash) { 
int i; Computer 类 的 虚 表 memo'_T0:4_T1:8' 
for(i=0; i<numTimes; i=i+1) _Computer.Crash: 
Print ("sad\n") ; _T16=0 
} Computer _T15=_T16 
} _Computer.Crash branch 514 
_L15: 
FUNCTION (_Computer_New) { _T17=1 
memo" =? _T18=(_T15+_T17) 
_Computer_New: 个 Compute 对 象  -p15= T8 
_T2=8 _L14: 
parm_T2 _T19=(_T15<_T1) 
_T3=call _Alloc if(_T19==0) branch _L16 
“r4=0 _T20="sad\n" 
* (_T3+4)= 74 parm _T20 
_T5=VTBL<Computer> call _PrintString 
* (_T3+0)=_T5 branch _L15 
return_T3 _116: 


} } 
FA 11.5 Decaf 编译 器 中 的 New 函数 和 成 员 函 数 示 意 
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类 似 地 ,如 图 11.6 所 示 ,执行 _ Mac_New 将 初始 化 一 个 Mac 对 象 。 此 时 应 注意 ,在 对 
象 私有 空间 中 ,除了 本 地 申明 的 变量 mouse, 还 包括 继承 父 类 的 变量 cpu, 并 且 cpu 的 存储 
位 置 靠 前 。 初 始 化 一 个 Mac 对 象 时 需要 分 配 的 存储 空间 是 3 个 单元 , 即 12B 大 小 。 


class Mac extends Computer FUNCTION (_Mac.Crash) { 
{ memo'_T6:4_1T7:8' 

int mouse; _Mac.Crash: 

void Crash(int numTimes) { _T21="ack!" 

Print ("ack!"); parm _T21 

} Mac 类 的 虚 表 call _PrintString 
} _Computer } 
FUNCTION (_Mac_New) { Mac 
memo" _Mac.Crash 
_Mac_New: 

_T8=12 

parm_T8 一 个 Mac 对 象 

_T9=call Alloc 

_T10=0 == 

*(_T9+4)+_T10 cpu 

* (_T9+8)+_T10 

_T11=VTBL<_Mac> moue 


*(_T9+0)+_T11 
return _T9 


} 
图 11.6 New 函数 和 成 员 函 数 的 另 一 个 例子 


图 11.5 和 图 11. 6 都 示意 了 成 员 函 数 的 Crash 的 TAC 代码 。 在 Mac 类 中 重 载 了 
Crash 方法 ,因而 Computer 类 和 Mac 类 的 Crash 方法 对 应 不 同 的 版 本 ,在 图 中 分 别 表 示 为 
_Computer_Crash 和 _Mac_Crash 。 

注意 ,每 个 函数 体 的 开始 处 含有 memo XXX', 这 仅 是 一 种 指导 命令 , 专 为 TAC 模拟 器 
使 用 ,不 影响 其 他 部 分 的 理解 ,不 必 特 别 关 注 。 如 图 11. 5 中 _Computer. Crash ph BOA AY. 
memo T0: 4_T1: 8 的 含义 是 指 临时 量 _To 的 偏 移 量 固定 是 4, 临 时 量 _Tl 的 偏 移 量 固定 
是 8。 实 际 上 ,这 里 的 _To 和 _T1 分 别 与 形式 参数 this 和 numTimes 相对 应 。 

实验 框架 中 ,语义 上 合法 的 程序 都 包含 唯一 的 Main 类 ,其 中 包含 唯一 的 静态 main 方 
法 。 创 建 Main 类 实例 并 且 调 用 main 函数 的 过 程 将 自动 成 为 一 个 Functy 对 象 ,并 将 其 人 
口 当 作 整 个 程序 的 入 口 。 图 11. 7 为 类 Main 及 static main 函数 的 TAC 代码 示例 。 

通过 图 11.7 中 的 main 函数 体 ,我 们 来 理解 一 下 方法 调用 powerbook, Crash(2) 所 对 应 
W TAC 语句 序列 。 首 先 ，T22( 对 应 源 程序 中 powerbook) 指 向 所 创建 的 Mac 对 象 ,作为 调 
用 _Mac. Crash 的 第 1 个 参数 ( 形 参 为 this)。 另 一 个 参数 2( 形 参 为 numtimes) 存 放 于 
_T24 .通过 该 对 象 第 一 个 单元 的 内 容 ( * (_T22 十 0)) 得 到 Vtable 的 地 址 存放 至 _T25, 然 后 
通过 * (_T25 十 8) 得 到 _Mac. Crash 的 入 口 _T26( 参 见 图 11.6 中 Mac 类 的 虚 表 ) ,因此 通过 
call _T26 实现 方法 调用 (有 两 个 参数 ,_T22 和 _T24) 。 

代码 框架 中 定义 了 一 个 Translater 类 ( 见 软件 包 中 的 sre. decaf. translate. Translater) , 
其 中 封装 了 创建 各 种 TAC 语句 的 方法 。 类 Translater 的 代码 如 下 : 


public class Translater { 
private List< VTable> vtables; 
private List<Functy> funcs; 
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class Main { FUNCTION (Main) { 


static void main() { memo" 
class Mac powerbook; main: 
powerbook=new Mac(); 
powerbook.Crash (2); Main 类 的 虚 表 
} i Null 
Main 
FUNCTION (_Main_New) { 
memo" _T26=* (_T25+8) 
_Main_New: call _126 
_T12=4 } 
parm _T12 
_T13=call _Alloc 
_T14=VTBL 一 个 Main 对 象 
< Main> 


* (_T13+0)=_T14 
return _T13 
} 


图 11.7 类 Main 及 static main 函数 


private Functy currentFuncty; 


public Translater() { 


) 


public static Translater translate(Tree. TopLevel tree) { 


vtables=new ArrayList< VTable> O ; // 创 建 vtable 列表 
funcs=new ArrayList<Functy> 0O; // 创 建 function 列表 


Translater tr 一 new Translater() ; 


TransPassl tp1=new TransPass1 (tr) ; 


tpl. visit TopLevel(tree) ; // 第 一 遍 扫描 
TransPass2 tp2=new TransPass2(tr); 
tp2. visitTopLevel(tree); // 第 二 遍 扫 描 
return tr; 
} 
esia // 相 关 支撑 函数 
public void createFuncty(Function func) { // 创 建 函 数 体 


} 


Functy functy=new Functy(); 
if (func. isMain()) { 
functy. label= Label. createLabel("main",true); // 创 建 主 函 数 入 口 标号 
} else { 
functy. label= Label. createLabel("_" 
+((ClassScope) func. getScopeQ ). getOwner(). getName O +". " 
+ func. getName() , true) ; // 创 建 其 他 函数 入 口 标号 
} 
functy. sym= func; 


func. setFuncty(functy) ; // 设 置 函 数 体 


public void beginFunc( Function func) { // 生 成 函数 体 首 部 


currentFuncty 一 func. getFuncty(); 


currentFuncty. paramMemo= memoOf( func) ; 


// 从 AST 到 TAC 翻译 的 入 口 
// 初 始 化 ,创建 vtable 和 function 的 列表 
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genMark(func. getFuncty(). label) ; 

} 

public void endFunc() { // 结 束 函 数 的 生成 ,加 入 已 生成 函数 的 列表 中 
funcs. add(currentFuncty) ; 


currentFuncty= null; 


eaten // 相 关 支 撑 函 数 

public void createVTable(Class c){ // 创 建 一 个 class 的 vtable 

} 

a // 相 关 支 撑 函 数 

public void append( Tac tac){ // 将 TAC 语句 添加 到 函数 体 中 


if (currentFuncty. head 一 一 null) { 

currentFuncty. head=currentFuncty. tail= tac; 
} else { 

tac. prev=currentFuncty. tail; 

currentFuncty. tail, next= tac; 


currentFuncty. tail= tac; 


} 

public Temp genAdd(Temp srcl, Temp src2) { // 生 成 加 法 对 应 的 TAC 语句 
Temp dst= Temp. createTempI4(); 
append(Tac. genAdd(dst,srel ,sre2)) ; 
return dst; 

public Temp genSub(Temp srcl , Temp src2){ // 生 成 减法 对 应 的 TAC 语句 
Temp dst= Temp. createTempl4 O ; 
append(Tac. genSub(dst, srcl ,src2)); 


return dst; 


at // 各 类 翻译 函数 或 相关 支撑 函数 
public Temp genIntrinsicCall(Intrinsic intrn){ // 生 成 标准 库 函 数 调用 的 TAC 语句 
Temp dst; 
if (intrn. type. equal(BaseType. VOID)) { 
dst=null; 
} else { 
dst= Temp. createTempl4 O ; 
} 
append(Tac. genDirectCall(dst,intrn. label) ) ; 


return dst; 


ne. // 各 类 翻译 函数 或 相关 支撑 函数 
public void genParm(Temp parm) { // 生 成 参数 对 应 的 TAC 语句 
append(Tac. genParm( parm) ) ; 
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ias // 各 类 翻译 函数 或 相关 支撑 函数 
public void genNewForClass(Class c){ // 翻 译 一 个 class 的 New 方法 


// 各 类 翻译 函数 或 相关 支撑 函数 


在 类 Translater 的 基础 上 ,可 以 建立 各 种 数据 对 象 , 并 且 对 函数 体 的 各 种 语句 和 表达 式 
进行 翻译 。 需 要 注意 的 是 ,在 开始 翻译 函数 体 之 前 需要 调用 Translater 的 beginFunc() PK 
数 来 开始 函数 体 的 翻译 过 程 ,在 翻译 完 函 数 体 以 后 需要 调用 Translater 的 endFunc( ph 
来 结束 函数 体 的 翻译 过 程 (否则 将 不 能 形成 正确 的 Functy 对 象 ) 。 

Translater 的 translate 函数 给 出 了 从 AST 到 TAC 的 翻译 过 程 ,通过 对 AST 进行 两 遍 
扫描 来 实现 。 类 似 于 第 二 阶段 的 做 法 ,通过 继承 针对 AST 的 Visitor 类 ,并 继承 或 重 载 其 中 
的 visit 方法 ,分 别 给 出 在 进行 这 两 遍 翻 译 过 程 的 具体 工作 。 

对 于 第 一 遍 翻 译 过 程 ,实验 框架 软件 包 的 sre. decaf. translate. TransPassl 中 定义 了 
Visitor 的 一 个 子 类 TransPassl ,代码 如 下 : 


public class TransPassl extends Tree. Visitor { 


public void visitTopLevel(Tree. TopLevel program) { //M RAR AMY visit 方法 
for (Tree. ClassDef cd : program. classes) { 


cd. accept( this) ; // 遍 有 历 每 个 类 定义 并 执行 相应 的 visit 方法 
} 
for (Tree. ClassDef cd : program. classes) { 

tr. createVTable(cd. symbol) ; // 为 每 个 类 生成 相应 的 VTable 

tr. genNewForClass(cd. symbol) ; // 为 每 个 类 生成 相应 的 New 函数 


for (Tree. ClassDef cd : program. classes) { 
if (ed. parent !=null) { // 为 每 个 子 类 的 VTable 设置 指向 父 类 VT able 的 指针 
cd. symbol. getVtable(). parent=cd. symbol. getParent(). get Vtable() ; 
} 


} 
public void visitClassDef( Tree. ClassDef classDef) { 


第 一 遍 翻译 过 程 主要 工作 包括 : 为 每 个 类 生成 VTable, New 函数 ,计算 各 类 偏 移 量 信 
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息 ,为 每 个 函数 创建 Functy 对 象 ,为 函数 形 参 关联 Temp 对 象 ,等 等 。 
对 于 第 二 遍 翻 译 过 程 ,实验 框架 软件 包 的 src. decaf. translate. TransPass2 中 定义 了 
Visitor 的 一 个 子 类 TransPass2 ,代码 如 下 : 


public class TransPass2 extends Tree. Visitor { 
private Translater tr; 
private Temp currentThis; 
public void visitTopLevel( Tree. TopLevel program) { 
for (Tree. ClassDef cd : program. classes) { 
cd. accept( this) ; // 遍 历 每 个 类 定义 并 执行 相应 的 visit 方法 


} 
public void visitClassDef(Tree. ClassDef classDef) { 
for (Tree f : classDef. fields) { 
f. accept( this) ; // 遍 历 类 定义 的 每 个 域 并 执行 相应 的 visit 方法 


} 
public void visitMethodDef(Tree. MethodDef funcDefn) { 
if (!funcDefn, statik) { // 获 取 当 前 非 静态 函数 this 参数 的 临时 变量 
currentThis 一 ((Variable) funcDefn. symbol. getAssociatedScope() 
. lookup("this")). getTemp(); 
} 


tr. beginFunc(funcDefn. symbol) ; // 开 始 函 数 体 的 TAC 代码 生成 
funcDefn. body. accept(this) ; / / 3k 555 R AS K i a) SRIF AT AY visit 方法 
tr, endFunc() ; // 结 束 函 数 体 的 TAC 代码 生成 


currentThis= null; 
} 
public void visitVarDef(Tree. VarDef varDef) { 
if (varDef. symbol. isLocalVar() ) { // 为 局 部 变量 绑 定 临时 变量 
Temp t=Temp. createTempI4(); // 创 建 一 个 新 的 含 32 位 整数 标识 的 临时 变量 
t. sym=varDef. symbol; 
varDef. symbol. setTemp(t) ; 


} 
public void visitBinary(Tree. Binary expr){ // 重 载 二 元 运算 结 点 的 visit 方法 


expr. left. accept(this) ; // 遍 历 左 边 表达 式 并 执行 相应 的 visit 方法 
expr. right. accept(this); AARE RIT visit 方法 
switch (expr. tag) { 
case Tree. PLUS: // 生 成 加 法 运算 的 TAC 语句 

expr. val= tr. genAdd(expr. left. val,expr. right. val) ; 

break; 
case Tree. MINUS: // 生 成 减法 运算 的 TAC 语句 

expr. val=tr. genSub(expr. left. val,expr. right. val) ; 

break; 
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suchas // 生 成 其 他 二 元 运算 的 TAC 语句 


2 // 各 类 翻译 函数 或 相关 支撑 函数 
public void visitBlock(Tree. Block block) { 
for (Trees : block. block) { 
s. accept( this) ; // 遍 历 block 中 的 所 有 结 点 并 执行 相应 的 visit 方法 


public void visitThisExpr( Tree. ThisExpr thisExpr) { 
thisExpr. val=currentThis; // 绑 定 this 表达 式 的 临时 变量 
} 
public void visitPrint( Tree. Print printStmt) { 
for (Tree. Expr r : printStmt, exprs){ // 循 环 处 理 要 打印 列表 中 的 表达 式 
r. accept(this)， // 遍 历 列 表 中 的 一 个 表达 式 并 执行 相应 的 visit 方法 
tr. genParm(r. val) ; // 生 成 存放 该 表达 式 结果 的 临时 变量 作为 参数 的 
TAC 语句 
if (r. type. equal(BaseType. BOOL)) { // 生 成 对 _PrintBool 的 调用 
tr. genIntrinsicCall( Intrinsic. PRINT_BOOL) ; 
} else if (r. type. equal(BaseType. INT) { // 生 成 对 _PrintInt 的 调用 
tr. genIntrinsicCall( Intrinsic. PRINT_INT) ; 
} else if (r. type. equal(BaseType. STRING)){ // 生 成 对 _PrintString 的 调用 
tr. genIntrinsicCall( Intrinsic. PRINT_STRING) ; 


itis // 省 略 其 他 类 AST 结 点 重 载 的 visit 方法 


11.2.5 代码 优化 (阶段 四 ) 


目前 阶段 四 的 实验 框架 中 只 包含 基本 块 划分 、 流 图 构建 以 及 活跃 变量 分 析 等 方面 的 代 
码 ,尚未 包含 任何 与 中 间 代 码 优化 算法 相关 的 代码 。 在 这 一 代码 框架 基础 上 ,可 选择 布置 各 
种 代码 优化 的 作业 。 基 本 块 划 分 和 流 图 构建 的 方法 在 第 10 章 已 有 介绍 ,这 里 仅 给 出 实验 框 
架 中 基本 块 和 流 图 的 具体 数据 结构 定义 。 

基本 块 类 BasicBlock( 见 sre. decaf. dataflow. BasicBlock) 的 定义 框架 如 下 : 


public class BasicBlock{ 
public int bbNum; // 基 本 块 的 编号 
public enum EndKind{ 
BY_BRANCH,BY_BEQZ,BY_BNEZ,BY_RETURN 
} 


public EndKind endKind; // 出 口 类 别 
public int inDegree; // 从 入 口 基本 块 开 始 计 数 的 第 inDegree 个 基本 块 
public Tac tacList; // 基 本 块 的 TAC 语句 序列 
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public Label label; 

public Temp var; 

public Register varReg; 
public intl] next; 

public boolean cancelled; 
public boolean mark; 

public Set<Temp> def; 
public Set<Temp> liveUse; 
public Set<Temp> liveln; 
public Set<Temp> liveOut; 
public Set<Temp> saves; 
private List< Asm> asms; 


// 当 前 基本 块 汇 编码 起 始 位 置 的 标号 

// 出 口语 句 RETURN BEQZ,BNEZ 的 操作 数 变量 
// 出 口语 句 RETURN, BEQZ, BNEZ 的 操作 数 寄存 器 
// 后 继 基本 块 (最 多 2 个) 的 编号 

// 标 记 为 死 代码 的 基本 块 

// 标 记 当 前 基本 块 的 汇编 码 是 否 已 输出 

// 基 本 块 的 Def 集合 

// 基 本 块 的 LiveUse 集合 

// 基 本 块 的 Liveln 集合 

// 基 本 块 的 LiveOnut 集合 

// 离 开 基本 块 时 需 保存 的 寄存 器 集合 

// 基 本 块 的 汇编 指令 序列 


// 基 本 块 内 的 活跃 变量 分 析 


基本 块 编号 bbNum 会 在 标记 基本 块 ( 调 用 流 图 类 FlowGraph 的 markBasicBlocks PA 
数 ) 时 设置 。 

每 个 基本 块 的 出 口 类 别 endKind, Tac 语句 序列 tacList, 出 口语 句 RETURN BEQZ 和 
BNEZ 的 操作 数 变量 var 以 及 后 继 基 本 块 ( 最 多 2 个) 的 编号 next 会 在 由 基本 块 生成 流 图 的 
过 程 (调用 类 流 图 类 FlowGraph 的 gatherBasicBlocks 函数 ) 时 逐一 定义 。 

Def 集合 def 以 及 LiveUse 集合 liveUse 是 基本 块 的 固有 属性 ,由 这 个 类 (BasicBlock) 
中 的 函数 computeDefAndLiveUse 计算 并 设置 。 在 computeDefAndLiveUse 得 到 liveUse 
时 ,同时 将 其 置 为 基本 块 的 Liveln 集合 liveln 的 初 值 。 

在 流 图 中 ,每 个 基本 块 的 LiveOut 集合 liveOut 和 Liveln 集合 liveIn, 是 由 流 图 范围 内 
的 活跃 变量 数据 流 分 析 得 出 的 , 即 调用 流 图 类 FlowGraph 的 analyzeLiveness 函数 。 

这 里 值得 区 别 一 下 流 图 范围 内 的 活跃 变量 数据 流 分 析 与 基本 块 内 的 活跃 变量 数据 流 分 
析 , 其 函数 名 都 是 analyzeLiveness, 但 属于 不 同 的 类 。 前 者 属于 类 FlowGraph, 用 于 计算 基 
本 块 为 单位 的 LiveOut 集合 和 Liveln 集合 。 后 者 属于 类 BasicBlock, 用 于 计算 TAC 语句 
为 单位 的 LiveOut 集合 和 Liveln 集合 (实际 上 ,每 个 TAC 语句 只 记录 了 LiveOut 的 值 ,其 
Liveln 的 值 可 由 TAC 语句 的 构成 及 其 LiveOut 的 值 计算 得 到 )。 

inDegree 表示 当前 基本 块 是 从 入 口 基 本 块 开 始 计 数 的 第 inDegree 个 基本 块 。 若 
cancelled 为 true, 则 表明 当前 基本 块 是 已 被 标记 为 死 代 码 的 基本 块 , 即 从 入 口 基本 块 不 可 
达 。inDegree 和 cancelled 在 流 图 类 FlowGraph 的 simplify 函数 中 使 用 ,该 函数 通过 删除 不 
可 达 的 基本 块 对 流 图 进行 化 简 。 

label 将 被 设置 为 当前 基本 块 汇 编码 起 始 位 置 的 标号 ,mark 标记 当前 基本 块 的 汇编 码 
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是 否 已 输出 。 参 见 src. decaf. backend. Mips, 

varReg 表示 分 配给 出 口语 名 RETURN BEQZ 和 BNEZ 操作 数 ( 如 果 有 的 话 ) 的 寄存 
器 ,在 寄存 器 分 配 (参见 11. 2. 6. 2 节 ) 时 设置 ,在 生成 函数 体 代 码 ( 参 见 11. 2. 6. 7 节 ) 时 
使 用 。 

saves 表示 离开 基本 块 时 需 保 存 的 寄存 器 中 的 变量 集合 , 即 基本 块 出 口 处 已 分 配 寄存 
器 的 活跃 变量 的 集合 ,在 寄存 器 分 配 ( 参 见 11. 2. 6. 2 节 ) 时 设置 ,在 生成 代码 时 使 用 ( 参 
见 11.26.611: 256.7 节 7) 

私有 属性 asms 在 本 类 构造 函数 中 被 初始 化 为 


asms=new ArrayList<Asm>(); 


在 后 续 代码 生成 阶段 ,分 别 通 过 函数 getAsms 和 appendAsm 来 访问 和 修改 (添加 一 条 指令 
asm) 基 本 块 中 的 asms。 
流 图 类 FlowGraph( 见 sre. decaf. dataflow. FlowGraph) 的 定义 框架 如 下 : 


public class FlowGraph implements Iterable<BasicBlock> { 
private Functy functy; // 流 图 对 应 的 函数 
private List<BasicBlock> bbs; // 流 图 包含 的 基本 块 集合 
public FlowGraph(Functy func) { 


this. functy= func; 


deleteMemo(func) ; // 去 掉 Memo 记录 
bbs=new ArrayList<BasicBlock>() ; 
markBasicBlocks(func. head) ; // 标 记 基 本 块 
gatherBasicBlocks(func. head) ; // 生 成 流 图 
simplify ; // 简 化 流 图 ( 死 代 码 删 除 ) 
analyzeLiveness() ; // 基 本 块 为 单位 的 活跃 变量 分 析 
for (BasicBlock bb ; bbs) { 
bb. analyzeLiveness( ; // 基 本 块 内 语句 为 单位 的 活跃 变量 分 析 

} 

} 

PP // 各 种 支撑 函数 


每 个 函数 对 应 一 个 流 图 。 流 图 类 构造 函数 描述 的 主要 流程 是 : 先 从 函数 入 口 开 始 标 记 
出 它 所 包含 的 所 有 基本 块 (调用 markBasicBlocks) ,然后 再 从 入 口 基本 块 (对 应 函数 入 口语 
句 的 基本 块 ) 开 始 逐 步 建 立 对 应 的 流 图 (调用 gatherBasicBlocks) 。 

此 外 ,还 辅 以 下 列 操作 : 

函数 simplify 删除 从 和 人口 基本 块 不 可 达 的 那些 基本 块 ,以 此 对 流 图 作 初步 的 化 简 。 

函数 analyzeLiveness 实现 以 基本 块 为 单位 的 活跃 变量 分 析 ,计算 出 流 图 中 每 个 基本 块 
的 LiveOut 集合 和 Liveln 集合 。 

构造 函数 最 后 的 循环 ,用 于 计算 每 个 基本 块 内 部 以 TAC 语句 为 单位 的 LiveOut 集合 
(通过 调用 类 BasicBlock 的 analyzeLiveness ŽO 。 

此 外 ,函数 的 Memo 记录 不 参与 代码 生成 (而 是 为 TAC 模拟 器 专用 ) ,因而 标记 基本 块 
建立 流 图 之 前 先 调用 deleteMemo 将 其 剔除 。 
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11.2.6 目标 代码 生成 (阶段 五 ) 


这 一 阶段 的 实验 框架 包括 汇编 指令 选择 .寄存 器 分 配 和 栈 帧 管理 。 实 验 内 容 可 以 设计 
为 对 这 些 部 分 代码 进行 改进 。 

完成 这 一 阶段 以 后 , 即 可 产生 出 适合 实际 MIPS 机 器 上 的 汇编 代码 ,可 以 利用 由 美国 
Wisconsin 大 学 所 开发 的 MIPS R2000/R3000 模拟 器 SPIM55 来 运行 这 些 汇 编 代 码 。 

下 面 分 几 个 重要 方面 对 目标 代码 生成 程序 的 代码 框架 进行 介绍 。 


11.2.6.1 栈 帧 管理 


栈 帧 管理 在 寄存 器 分 配 、 目 标 代 码 生成 中 起 着 重要 作用 。 我 们 定义 栈 帧 管理 类 
MipsFrameManager( 见 src. decaf. backend. MipsFrameManager) 的 框架 为 : 


public class MipsFrameManager { 
private int maxSize; 
private int currentSize; 
private int maxActualSize; 
private int currentActualSize; 
public int getStackFrameSize() { 
return maxSize+ maxActualSize; 
// 栈 帧 大 小 (不 含 控制 单元 ) 二 局 部 临时 量 字 节 数 十 实 参 字 节 数 
} 
public void reset() { // 置 初 值 


public void findSlot(Set<Temp> saves){  ”// 为 一 组 临时 量 分 配 栈 空间 


public void findSlot( Temp temp) { // 为 单个 临时 量 分 配 栈 空间 
i 

public int addActual(Temp temp) { // 添 加 实 参 并 返回 偏 移 量 

} 

public void finishActual( { // 设 置 maxActualSize 


11.2.6.2 寄存 器 分 配 


寄存 器 分 配 是 目标 代码 生成 的 必要 环节 ,其 目标 是 尽 可 能 充分 有 效 地 使 用 目标 机 的 寄 
存 器 。 寄 存 器 分 配方 法 有 局 部 和 全 局 之 分 ,全 局 寄存 器 分 配 是 在 流 图 范围 内 考虑 ,而 局 部 寄 
存 器 分 配 是 在 基本 块 范围 内 考虑 。 全 局 寄存 器 分 配 能 更 有 效 地 使 用 寄存 器 ,然而 分 配 算法 
比较 复杂 。 本 书 配套 的 实验 软件 包 中 包含 基本 块 范围 内 的 局 部 寄存 器 分 配 模块 ,但 只 采用 
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了 最 基本 的 分 配 算法 。 寄 存 器 分 配 类 RegisterAllocator( 见 sre. decaf. backend. Register- 


Allocator) 的 代码 框架 如 下 : 


public class RegisterAllocator { 
private BasicBlock bb; 
private MipsFrameManager frameManager; 
private Register[] regs; 
private Temp fp; 


public RegisterAllocator(Temp fp, MipsFrameManager frameManager, Register[ ] regs) { 


this. fp 一 fp; this. frameManager=frameManager; this. regs= regs // 构 造 函 数 


} 

public void reset(){ 
frameManager. reset() ; 

} 

public void alloc(BasicBlock bb) { 


private void clear() { 
for (Register reg : regs) { 
if (reg. var !=null) { 


reg. var= null; 


} 

private void bind(Register reg, Temp temp) { 
reg. var= temp; 
temp. reg= reg; 

} 


private void spill(Tac tac, Temp temp) { 


// 初 始 化 


// 基 本 块 内 局 部 寄存 器 分 配 


// 清 空 每 个 寄存 器 绑 定 的 变量 


// 寄 存 器 与 变量 绑 定 


// 泄 漏 寄存 器 变量 到 内 存 


Tac spill=Tac. genStore(temp,fp,Temp. createConstTemp(temp. offset)); 


bb. insertBefore(spill,tac); 
} 
private void findReg(Tac tac. Temp temp, boolean read) { 
if (temp. reg !=null) { 
if (temp. equals(temp. reg. var)){return; } 
} 
for (Register reg : regs) { 
if (reg. var 一 一 null || lisAlive(tac, reg. var)) { 
bind(reg, temp) ; 
if (read) { 
load(tac, temp) ; 
} 


return; 


// 插 入 寄存 器 变量 spill 语句 


// 找 空闲 寄存 器 


// 已 在 寄存 器 中 


// 找 不 需要 泄漏 的 寄存 器 


// 寄 存 器 与 变量 绑 定 


// 插 入 一 条 load 语句 


* 321 * 


for (Register reg : regs) { // 找 已 确定 要 泄漏 的 寄存 器 
if (reg. var. isOffsetFixed()) { 


spill(tac, reg. var) ; // 泄 漏 寄存 器 到 内 存 
bind(reg, temp) ; // 寄 存 器 与 变量 绑 定 
if (read) { 

load( tac, temp) + // 插 和 人 一 条 load 语句 
} 
return; 


} 
Register reg 一 regs[random. nextInt(regs. length)]; ”// 随 机 选 一 个 寄存 器 


frameManager. findSlot(reg. var); // 为 变量 找 栈 空间 
spill(tac, reg. var); // 泄 漏 寄 存 器 变量 到 内 存 
bind(reg, temp); // 寄 存 器 与 变量 绑 定 
if (read) { 

load(tac, temp) ; // 插 入 一 条 load 语句 


} 
private Random random=new Random(); 
private void load(Tac tac, Temp temp) { 

if (temp. isOffsetFixed ) { // 变 量 存储 位 置 未 确定 

Driver. getDriver(). getOption(). getErr(). println( temp 
十 "may be used before define during register allocation") ; 
} 
Tac load= Tac. genLoad( temp, fp, Temp. createConstTemp(temp. offset) ) ; 


bb. insertBefore(load, tac) ; // 插 入 一 条 load 语句 

} 

private void findRegForRead(Tac tac, Temp temp) { // 为 操作 数 找 空闲 寄存 器 
findReg(tac, temp; true) ; 

} 

private void findRegForWrite(Tac tac, Temp temp) { // 为 计算 结果 找 空 闲 寄存 器 
findReg(tac, temp, false) ; 

} 

private boolean isAlive(Tac tac, Temp temp) { // 判 定 变量 是 否 活跃 


if (tac !=null && tac. prev !=null) { 
tac= tac. prevs 
while (tac !=null && tac. liveOut= = null) { 


tac= tac. prev; 


} 
if (tac !=null) { 
return tac. liveOut. contains( temp) ; 


} 


return bb. liveIn. contains(temp) ; 
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本 实验 框架 中 最 基本 的 寄存 器 分 配 算法 可 从 类 RegisterAllocator 的 成 员 函 数 findReg 
All alloc 体现 出 来 。findReg 描述 了 为 语句 tac 中 临时 量 temp 绑 定 一 个 寄存 器 的 过 程 ， 
DUR temp 某 个 寄存 器 reg 中 , 则 返回 ;否则 ,@ 先 尝试 找 一 个 不 需要 泄漏 的 寄存 器 ,找到 
的 话 就 将 temp 绑 定 到 这 个 寄存 器 并 返回 ;否则 ,@ 就 尝试 找 一 个 已 确定 要 泄漏 的 寄存 器 ， 
找到 的 话 生成 一 条 泄漏 这 个 寄存 器 的 指令 ,再 将 temp 绑 定 到 这 个 寄存 器 ,返回 ;否则 ,@ 随 
机 挑选 一 个 寄存 器 ,生成 一 条 泄漏 这 个 寄存 器 的 指令 (强行 让 其 泄露 ) ,然后 将 temp 绑 定 到 
这 个 寄存 器 。 在 temp 是 需要 读 入 的 量 ( 如 操作 数 ) 并 且 findReg 分 配给 它 新 的 寄存 器 时 ,还 
需 插 入 一 条 读 变 量 内 容 到 寄存 器 的 语句 。RegisterAllocator 的 成 员 函 数 alloc 描述 了 在 基 
本 块 范围 内 进行 内 局 部 寄存 器 分 配 的 完整 过 程 : 


public class RegisterAllocator { 


public void alloc(BasicBlock bb) { // 基 本 块 内 局 部 寄存 器 分 配 
this. bb= bb; 
clear); 
Tac tail= null; 


for (Tac tac 一 bb. tacList; tac ! 一 null; tail= tac, tac= tac. next) { 


switch (tac. ope) { // 根 据 不 同 操作 为 三 个 操作 数 分 配 寄存 器 
case ADD: // 二 元 运算 的 情形 
case SUB: 


findRegForRead(tac, tac. op1) ; 
findRegForRead( tac, tac. op2) ; 
findRegForWrite(tac, tac. op0) ; 
break; 
case NEG: // 一 元 运算 的 情形 
case LNOT: 
case ASSIGN; 
findRegForRead(tac, tac. opl); 
findRegForWrite(tac, tac. op0) ; 
break; 
case LOAD_VTBL: // 零 元 运算 的 情形 
case LOAD_IMM4: 
case LOAD_STR_CONST; 
findRegForWrite(tac, tac. op0) ; 


break; 

case INDIRECT_CALL: // 间 接 调 用 
findRegForRead(tac, tac. opl); 

case DIRECT_CALL: // 直 接 调用 
if (tac, op0 !=null){ // 有 返回 值 


findRegForWrite(tac, tac. op0); 
} 
frameManager. finishActual() ; // 实 参 空间 已 确定 
tac. saves 一 new HashSet<Temp> (); 
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for (Tempt: tac. liveOut) { 
if (t. reg ! 一 null && t. equals(t reg. var) &-& It. equals(tac. op0)) { 
tac. saves. add(t) ; // 不 包括 返回 值 变量 


} 
break; 

case PARM: // 过 程 实 参 
findRegForRead(tac, tac. op0) ; 
int offset=frameManager. addActual(tac. op0) ; 
tac. opl= Temp. createConstTemp( offset) ; 
break; 

case LOAD; 
findRegForRead( tac, tac. opl); 
findRegForWrite(tac, tac. op0) ; 
break; 

case STORE: 
findRegForRead( tac, tac. opl); 
findRegForRead (tac, tac. op0) ; 
break; 

case BRANCH: 

case BEQZ; 

case BNEZ: 

case RETURN; 
throw new IllegalArgumentException( ; 


} 
bb. saves=new HashSet<Temp>( ; 


for (Tempt: bb. liveOut){ // 对 于 基本 块 出 口 处 的 活路 变量 
if (t. reg !=null &-&. t. equals(t. reg. var)) { // 若 是 处 于 寄存 器 中 的 变量 
frameManager. findSlot(t) ; // 为 变量 找 栈 空间 
bb. saves. add(t); // 加 入 到 需要 保存 的 寄存 器 的 集合 
} 
} 
switch (bb. endKind) { // 处 理 基本 块 出 口语 句 的 寄存 器 使 用 


case BY_RETURN: 
case BY_BEQZ: 
case BY_BNEZ; 


if (bb. var !=null) { // 出 口语 句 变量 已 分 配 栈 空间 
if (bb. var. reg ! 一 null &-&. bb. var. equals(bb. var. reg. var)) { 
bb. varReg= bb. var. regs // 绑 定 出 口语 句 变量 的 当前 寄存 器 
return; 
) else // 出 口语 句 变量 未 在 寄存 器 中 
bb. var. reg 一 regs[0]; // 可 任 选 一 个 寄存 器 (所 有 活 变量 均 已 被 泄露 ) 
if (1bb. var. isOffsetFixed()) { // 变 量 存储 位 置 未 确定 


Driver. getDriver(). getOption(). getErr(). println(bb. var 
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十 "may used before define during register allocation"); 
frameManager. findSlot(bb. var); ”// 为 变量 找 栈 空间 
} 
Tac load= Tac. genLoad(bb. var, fp, 
Temp. createConstTemp(bb. var. offset) ) ; 
bb. insertAfter(load , tail) ; // 插 入 一 条 load 语句 
bb. varReg 一 regs[0]; // 绑 定 家 存 器 $ZERO 


alloc 函数 遍历 基本 块 (bb) 内 的 TAC 语句 序列 (bb. tacList) ,对 每 一 条 TAC 语句 的 操 
作 数 (最 多 两 个 ) 以 及 操作 结果 (最 多 一 个 ) 分 配 寄存 器 ,前 者 调用 函数 findRegForRead, 后 
者 调用 函数 findRegForWrite。 这 两 个 函数 都 是 通过 调用 函数 findReg 完成 临时 量 与 寄存 
器 的 绑 定 。 对 于 基本 块 出 口 处 的 活跃 变量 ,如果 已 绑 定 到 某 个 寄存 器 , 则 将 这 个 变量 加 入 基 
本 块 的 saves 集合 。 参 见 11. 2. 5 节 ,saves 表示 离开 基本 块 时 需 保存 的 寄存 器 中 的 变量 


ZA. 
Ho 


11.2.6.3 生成 Vtable 的 数据 段 


在 中 间 代 码 (TAC) 生 成 时 ,对 于 每 个 类 将 产生 Vtable 信息 ,可 参见 类 Translater 的 成 员 
函数 createVTable (在 src.decaf.translate.Translater 中 )。 类 Mips( 在 src.decaf.backend.Mips 中 ) 
实现 了 一 个 interface MachineDescription, 通过 调用 接口 MachineDescription 的 函数 
emitVTable, 最 终生 成 汇编 代码 中 的 Vtable 数据 段 指 导 命 令 序 列 。 


public class Mips implements MachineDescription { 
public void emitVTable(List< VTable> vtables) { 

emit(null,". data" , null) ; 

emit(null,". globl main", null) ; 

for (VTable vt : vtables){ 
emit(null,". data" , null) ; 
emit(null,". align 2" ,null); 
emit(vt, name, null, "virtual table"); 
emit(null,". word "+ (vt. parent==null ? "0" ; vt. parent. name) ," parent"); 
emit(null,". word "+ getStringConstLabel(vt. className) ,"class name") ; 
for (Label l : vt. entries) { 


emit(null,". word "+1. names null) ; 
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11.2.6.4 生成 各 流 图 代码 段 


类 Mips( 在 src. decaf. backend. Mips 中 ) 的 成 员 函 数 emitAsm 通过 遍历 程序 中 的 流 图 
(每 个 流 图 对 应 一 个 函数 ) ,生成 整个 程序 的 汇编 代码 。 


public class Mips implements MachineDescription { 


public void emitAsm(List<FlowGraph> gs) { 


emit(null,". text" , null) ; // 输 出 代码 段 指导 命令 
for (FlowGraph g : gs){ // 遍 历程 序 中 的 每 个 流 图 
regAllocator. reset(); // 初 始 化 (寄存 器 分 配 , 栈 帧 管理 ) 


PA // 生 成 流 图 g 中 各 基本 块 的 汇编 代码 
emitProlog(g. getFuncty(). label, frameManager. getStackFrameSize() ) ; 
// 生 成 Prologue 代码 (初始 化 函数 栈 帧 ) 

emitTrace(g. getBlock(0) ,g); // 遍 有 历 流 图 g 生成 完整 函数 体 代 码 
output. println(); 

} 

for (int i=0; i < 3; i++) { 
output. println(); 

} 

emitStringConst() ; // 生 成 常量 描述 的 数据 段 


} 


对 于 每 个 流 图 ,首先 初始 化 寄存 器 分 配 和 栈 帧 管理 ,接着 生成 流 图 中 各 基本 块 的 汇编 代 
码 (参见 11. 2. 6.5 节 ); 输 出 各 流 图 对 应 的 汇编 代码 时 ,首先 产生 Prologue 代码 用 于 初始 化 
函数 栈 帧 (参见 11. 2. 6. 8 节 ,emitProlog) ,然后 从 入 口 基本 块 开始 遍历 整个 流 图 ,生成 完整 
的 函数 体 代码 (参见 11. 2. 6. 9 节 ,emitTrace) 。 

最 后 ,通过 调用 本 类 中 成 员 函 数 emitStringConst, 生 成 常量 描述 的 数据 段 指导 命令 序 
列 ,结束 整个 流 图 的 代码 生成 。 


11.2.6.5 流 图 中 各 基本 块 的 代码 生成 


类 Mips( 在 srce. decaf. backend. Mips 中 ) 的 成 员 函 数 emitAsm 遍历 每 个 流 图 来 生成 整 
个 程序 的 汇编 代码 。 对 于 每 个 流 图 ,首先 创建 各 基本 块 的 起 始 标 号 ,接着 对 于 流 图 中 从 入 口 
可 达 的 基本 块 完成 局 部 寄存 器 分 配 (参见 11. 2. 6. 2 节 中 的 类 RegisterAllocator 的 alloc 成 
员 函 数 ) ,然后 生成 该 基本 块 的 汇编 代码 (参见 11. 2. 6. 6 节 中 的 类 Mips 的 genAsmForBB 
成 员 函 数 ) ,最 后 生成 该 基本 块 的 保存 (离开 基本 块 时 需要 保存 的 ) 寄 存 器 的 代码 。 


public class Mips implements MachineDescription { 
public void emitAsm(List<FlowGraph> gs) { 
emit(null,". text" ,null); 
for (FlowGraph g : gs){ 
regAllocator. reset() ; // 初 始 化 (寄存 器 分 配 , 栈 帧 管理 ) 
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for (BasicBlock bb : g){ // 创 建 起 始 标号 
bb. label= Label. createLabel() ; 
} 
for (BasicBlock bb : g){ 
if (bb. cancelled) { // 略 过 死 代 码 的 基本 块 
continue; 
} 
regAllocator. alloc(bb); ”// 基 本 块 内 局 部 寄存 器 分 配 
genAsmForBB(bb) ; // 基 本 块 内 汇编 代码 生成 
for (Tempt: bb. saves) { 
bb. appendAsm(new MipsAsm (MipsAsm. FORMAT4, "sw", 


t. reg, t. offset," $ fp")); 
} // 生 成 保存 (离开 基本 块 时 需要 保存 的 ) 寄 存 器 的 代码 


11.2.6.6 基本 块 内 汇编 代码 生成 


类 Mips( 在 sre. decaf. backend. Mips 中 ) 的 成 员 函 数 genAsmForBB 遍历 基本 块 内 的 
每 条 TAC 语句 ,根据 语句 类 型 生成 指令 / 伪 指 令 或 指令 / 伪 指 令 序 列 。 


public class Mips implements MachineDescription { 
private void genAsmForBB(BasicBlock bb) { 
for (Tac tac=bb. tacList; tac !=null; tac 一 tac. next) { 
switch (tac. ope) { 
case ADD: //ADD 操作 ,生成 add 指令 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT3, "add", 
tac. op0. reg, tac. opl. reg, tac. op2. reg)) ; 
break; 
case SUB: //SUB 操作 ,生成 sub 指令 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT3,"sub", 
tac. op0. reg, tac. opl. reg, tac. op2. reg)) ; 
break; 
case MUL: //MUL 操作 ,生成 mul 指令 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT3,"mul". 
tac. op0. reg, tac. opl. reg, tac. op2. reg)) ; 
break; 
case DIV: //DIV 操作 ,生成 div 指令 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT3, "div", 
tac. op0. reg, tac. opl. reg, tac. op2. reg)) ; 
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break; 
case MOD; //MOD 操作 ,生成 rem 伪 指 令 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT3,"rem", 
tac. op0. reg, tac. opl. reg, tac. op2. reg)); 
break; 
case LAND: //2 AND 操作 ,生成 and 指令 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT3, "and"， 
tac. op0. reg, tac. opl. reg, tac. op2. reg)); 
break; 
case LOR: // 逻 辑 OR 操作 ,生成 or 指令 
bb. appendAsm(new MipsAsm(MipsAsm. FORMATS, "or", 
tac. op0. reg, tac. opl. reg, tac. op2. reg)) ; 
break; 
case GTR; //* 大 于 ”操作 ,生成 sgt 伪 指 令 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT3, "sgt", 
tac, op0. reg, tac. opl. reg, tac. op2. reg)); 
break; 
case GEQ: //* 大 于 等 于 "操作 ,生成 sge 伪 指令 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT3,"sge", 
tac. op0. reg, tac. opl. reg. tac. op2. reg)) + 
break; 
case EQU: //* 等 于 ”操作 ,生成 seq 伪 指令 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT3, "seq", 
tac. op0. reg, tac. opl. reg, tac. op2. reg)) + 
break; 
case NEQ: //* 不 等 于 ”操作 ,生成 sne 伪 指 令 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT3, "sne", 
tac. op0. reg, tac. opl. reg, tac. op2. reg)) ; 
break; 
case LEQ; //* 小 于 等 于 ”操作 ,生成 sle 伪 指 令 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT3, "sle", 
tac. op0. reg, tac. opl. reg, tac. op2. reg)) ; 
break; 
case LES: //* 小 于 ”操作 ,生成 slt 指令 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT3, "slt", 
tac. op0. reg, tac. opl. reg, tac. op2. reg)); 
break; 
case NEG: // 相反 数 " 操 作 , 生 成 neg 伪 指 令 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT2, "neg", 
tac. op0. reg, tac. opl. reg)); 
break; 
case LNOT: /[2 NOT 操作 ,生成 not 伪 指令 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT?2, "not", 
tac. op0. reg, tac. opl. reg)); 
break; 


case PARM: 


case ASSIGN: // 赋 值 操作 ,必要 时 生成 move 伪 指 令 
if (tac. op0. reg !=tac. opl. reg) { 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT2,"move", 
tac. op0. reg, tac. opl. reg)); 
} 
break; 
case LOAD_VTBL; // 取 当前 VTable 基 址 操作 ,生成 la 伪 指 令 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT2,"la", 
tac. op0. reg, tac. vt. name) ) ; 
break; 


case LOAD_IMM4; // 取 立即 数 操作 ,分 情况 生成 指令 / 伪 指 令 序列 


if (Itac. opl. isConst) { 
throw new IllegalArgumentException( ; 


} 


int high= tac. opl. value >> 16; // 高 16 位 值 
int low=tac. opl. value & 0x0000FFFF; // 低 16 位 值 
if Chigh==0) { // 若 高 位 为 0, 生 成 1i 人 擅 指 令 


bb. appendAsm(new MipsAsm(MipsAsm. FORMAT?2,"li", 
tac. op0. reg,low)); 
} else{ // 否 则 ,生成 lui 指令 或 lui-addiu 指令 序列 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT2, "lui", 
tac. op0. regs high) ); 
if dow !=0) { 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT2， 
"addiu" „tac. op0. reg, tac. op0. reg,low)) ; 


} 
break; 


case LOAD_STR_CONST: // 取 串 常数 首 地 址 操作 ,生成 la 伪 指 令 


String label= getStringConstLabel( tac. str) ; 

bb. appendAsm(new MipsAsm(MipsAsm. FORMAT2, "la", 
tac. op0. reg, label)) ; 

break; 


case INDIRECT_CALL: 
case DIRECT_CALL: 


genAsmForCall(bb, tac) ; //CALL 操作 的 代码 生成 
break; 


bb. appendAsm(new MipsAsm( MipsAsm. FORMAT4,"sw", 
tac. op0. reg, tac. opl. value," $ sp")) 
break; 


case LOAD: // 读 内 存单 元 操作 ,生成 lw 指令 


bb. appendAsm(new MipsAsm(MipsAsm. FORMAT4,"lw", 
tac. op0. reg, tac. op2. value, tac. opl. reg)); 


break; 


// 设 置 参数 操作 ,生成 根据 偏 移 位 置 入 栈 的 sw 指令 
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case STORE: // 写 内 存单 元 操作 ,生成 sw 指令 

bb. appendAsm(new MipsAsm(MipsAsm. FORMAT4,"sw", 
tac. op0. reg, tac. op2. value, tac. opl. reg)); 

break; 

case BRANCH: 

case BEQZ: 

case BNEZ; 

case RETURN: 


throw new IllegalArgumentException() ; 


CALL 操作 的 代码 生成 通过 调用 本 类 中 的 成 员 函 数 genAsmForCall(S W 11. 2. 6.7 
节 ) 实 现 。 

另外 ,“ 编 译 原理 ”课程 实验 中 所 生成 的 MIPS 指令 或 SPIM 伪 指 令 均 可 在 SPIM 模拟 
器 上 直接 执行 。 如 果 是 在 其 他 处 理 器 (如 在 “计算 机 系统 综合 实验 ”课程 中 自己 设计 的 
CPU) , 则 需要 合适 的 汇编 器 ,汇编 后 所 生成 的 全 部 机 器 指令 一 定 要 属于 你 所 设计 CPU 的 
指令 集合 。 


11.2.6.7 CALL 代码 生成 


类 Mips( 在 src. decaf. backend. Mips 中 ) 的 成 员 函 数 genAsmForCall 生成 call 语句 的 
汇编 代码 。 该 汇编 代码 功能 是 : 首先 保存 caller 负责 保存 的 所 有 寄存 器 到 栈 帧 相应 位 置 ， 
接着 生成 负责 直接 调用 或 间接 调用 的 jal(jump and link) 或 jalr(jump and link register) 指 
令 , 调 用 返回 后 保存 返回 值 (如 果 有 的 话 ) 并 还 原 caller 负责 保存 的 所 有 寄存 器 。 


public class Mips implements MachineDescription { 
private void genAsmForCall(BasicBlock bb, Tac call) { 
for (Tempt: call. saves) { 
bb. appendAsm(new MipsAsm( MipsAsm. FORMAT4,"sw", 
t. reg. t. offset." $ fp")); 
) ”// 生 成 指令 sw, 用 于 保存 caller 负责 保存 的 寄存 器 到 栈 帧 相应 位 置 


if (call. opc 一 一 Tac. Kind. DIRECT_CALL){ // 直 接 调 用 ,生成 jal 指令 
bb. appendAsm(new MipsAsm( MipsAsm. FORMAT1, "jal" ,call. label) 5 
} else{ // 间 接 调 用 ,生成 jalr 指令 


bb. appendAsm(new MipsAsm(MipsAsm. FORMAT1,"jalr" ,call. opl. reg)); 
} 
if (call. op0 !=null) { 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT2,"move", 
call. op0. regs" $ v0")); 
)} ”// 如 果 需 要 保存 返回 值 (在 $ vO 中 ), 则 生成 move 伪 指 令 
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for (Tempt: call. saves){ // 还 原 caller 负责 保存 的 寄存 器 
bb. appendAsm(new MipsAsm(MipsAsm. FORMAT4,"lw", 
t. regyt offset," $ fp")); 


11.2.6.8 生成 Prologue 代码 


类 Mips( 在 sre. decaf. backend. Mips 中 ) 的 成 员 函 数 emitProlog 在 生成 完整 函数 体 代 
码 ( 以 入 口 基本 块 为 参数 调用 emitTrace, 参 见 11. 2. 6. 9 节 ) 之 前 被 调用 ,其 功能 是 生成 函数 
调用 Prologue 的 汇编 指令 或 汇编 指导 命令 的 序列 。 


public class Mips implements MachineDescription { 


private void emitProlog(Label entryLabel,int frameSize) { 


emit(entryLabel. name, null, "function entry"); // 生 成 函数 标签 (指导 命令 ) 
emit(null,"sw $fp,0($sp)",null); // 保 存 caller 帧 寄存 器 (动态 链 ) 
emit(null,"sw $ ra,—4($ sp)",null); // 保 存 返 回 地 址 

emit(null, "move $ fp, $ sp" ,null); // 置 callee 帧 寄存 器 
emit(null,"addiu $ sp, $ sp." // 置 callee 栈 寄存 器 


十 (一 frameSize 一 2 * OffsetCounter. POINTER_SIZE) , null) ; 


函数 调用 栈 帧 结构 如 图 11. 8 所 示 。emitProlog 生成 的 Prologue 代码 的 执行 过 程 是 : 
保存 caller 帧 寄存 器 (动态 链 ), 即 将 旧 的 $fp 保存 到 旧 的 


$ sp(caller 的 栈 寄存 器 ) 所 指 的 位 置 :保存 返回 地 址 到 旧 caller bi ; 

$ sp 一 4 的 位 置 ; 然 后 , 置 callee 的 帧 寄存 器 (新 $ Ip) NAH | O I 

caller 的 栈 寄存 器 ( 旧 $ sp) 内 容 ;最 后 ,根据 callee 的 栈 帧 大 返回 地 址 (ra) 

小 (frameSize) 计 算出 callee 的 栈 寄存 器 (新 $sp) 内 容 。 返 

回 地 址 (新 $ra) 是 由 caller 执行 jal( 或 jalr) 指 令 所 设置 的 。 | eeM 
一 新 Sfp 


当 callee 本 身 不 含 丽 数 调用 时 可 省 略 保存 返回 地 址 ( 想 想 为 
Har, 图 11.8 aM BREA HY 


函数 返回 时 , 栈 帧 的 变化 应 与 调用 时 的 Prologue 代码 
相 呼应 ,参见 11. 2. 6.9 节 。 


11.2.6.9 生成 整个 函数 的 代码 


类 Mips( 在 sre. decaf. backend. Mips 中 ) 的 成 员 函 数 emitTrace 递归 遍历 流 图 中 的 每 
个 基本 块 (入 口 基本 块 作为 参数 传人 ) .对 正在 遍历 的 基本 块 依次 逐条 输出 其 汇编 代码 ,在 基 
本 块 的 出 口语 句 分 情况 (无 条 件 跳 转 语句 两 种 条 件 转移 语句 以 及 函数 返回 语句 ) 进 行 处 理 。 
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递归 遍历 过 程 结束 后 , 便 生 成 了 整个 函数 的 汇编 代码 。 


public class Mips implements MachineDescription { 
private void emitTrace( BasicBlock bb,FlowGraph graph) { 

if (bb. mark) { // 当 前 基本 块 bb 已 经 遍历 过 ,返回 
return; 

} 

bb. mark= true; 

emit(bb. label. name, null, null) ; // 生 成 基本 块 人 口 标号 

for (Asm asm : bb. getAsms()){ // 逐 条 输出 基本 块 的 汇编 码 
emit(null,asm. toString() ,null); 

} 

BasicBlock directNext; 


switch (bb. endKind) { // 分 情况 处 理 基 本 块 出 口语 句 
case BY_BRANCH: // 无 条 件 跳 转 语句 
directNext= graph. getBlock(bb. next[0]) ; 
if (directNext. mark) { // 后 继 基 本 块 已 遍历 过 ,生成 无 条 件 跳 转 指令 b 


emit(null, String. format(MipsAsm. FORMAT1,"b"， 
directNext. label. name) ,null); 
} else{ // 后 继 基 本 块 未 曾 遍 历 ,此 时 无 须 生 成 跳 转 指令 
emitTrace(directNext, graph);  // 递 归 遍 历 这 个 后 继 基本 块 
} 
break; 
case BY_BEQZ: // 条 件 跳 转 语句 
case BY_BNEZ: 
if (bb. endKind= = EndKind. BY_BEQZ)( // 生 成 BEQZ 条 件 跳 转 伪 指令 
emit(null, String. format( MipsAsm. FORMAT2,"beqz" ,bb. varReg, 
graph. getBlock( bb. next[0]). label. name) , null) ; 
} else{ // 生 成 BNE 条 件 跳 转 指令 
emit(null, String. format(MipsAsm. FORMAT3, "bne" ,bb. varReg, 
" $ zero" ,graph. getBlock( bb. next[0]). label. name) , null) ; 
} 
directNext= graph. getBlock(bb. next[1]) ; 
if (directNext. mark) { // 不 成 立 分 支 已 遍历 过 ,生成 无 条 件 跳 转 指令 b 
emit(null, String. format(MipsAsm. FORMAT1,"b"， 
directNext, label. name) , null) ; 
} else{ // 条 件 不 成 立 分 支 未 曾 遍 历 
emitTrace(directNexts graph); ”// 道 归 遍 历 这 个 后 继 基 本 块 
} 
emitTrace(graph. getBlock(bb. next[0]) ,graph); // 遍 历 条 件 成 立 的 分 支 


break; 
case BY_RETURN: // 函 数 返回 语句 
if (bb. var != null) { // 有 返回 值 ,生成 move 伪 指 令 , 保 存 返回 值 到 $ v0 


emit(null, String. format(MipsAsm. FORMAT2,"move","$v0"， 
bb. varReg) ,null) ; 
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} 
emit(null, String. format(MipsAsm. FORMAT2,"move"," $ sp"," $ fp"), 

null) ; // 生 成 move 伪 指 令 , 还 原 caller 栈 寄存 器 
emit(null, String. format(MipsAsm. FORMAT2,"lw"," $ ra","—4( $ fp)"), 

null) ; // 生 成 lw 指令 , 读 取 返 回 地 址 到 $ ra 
emit(null, String. format(MipsAsm. FORMAT?2,"lw"," $ fp","0( $ fp)"), 

null); // 生 成 lw 指令 ,还 原 caller 帧 寄存 器 
emit(null, String. format(MipsAsm. FORMAT1,"jr","$ra"),nulD); 

// 生 成 jr 指令 , 跳 转 到 caller 的 下 一 条 指令 

break; 


函数 返回 时 , 栈 帧 的 变化 应 与 函数 调用 时 的 prologue 代码 相 呼 应 ,参见 11. 2.6.8 节 以 
及 图 11.8。 所 生成 的 函数 返回 代码 功能 是 : 车 有 返回 值 , 则 保存 返回 值 到 $v0; 还 原 caller 
栈 寄存 器 ,即将 callee 帧 寄存 器 (新 $fp) 的 内 容 传 递 给 $sp; 从 新 $fp 一 4( 即 旧 $sp 一 4) 的 
位 置 读 取 返回 地 址 到 $ ra; 还 原 caller 的 帧 寄存 器 ,恢复 旧 $fp( 即 新 $fp 当前 所 指 内 容 ); 
跳 转 到 caller 的 下 一 条 指令 (当前 $ ra 所 含 的 指令 地 址 ) 。 

如 果 在 你 的 体系 结构 API(Application Programming Interace) 中 所 规定 的 调用 约定 
(Calling Convention) $j 11. 2. 6. 8 节 、11.2.6.8 节 和 11.2.6.9 节 所 描述 的 有 出 入 , 则 不 能 
做 到 应 用 程序 间 的 二 进 制 兼容 ,不 能 正确 调用 不 采用 这 个 API 的 库 函 数 或 其 他 编译 器 生成 
的 函数 。 这 种 情况 下 ,如 果 有 兼容 性 要 求 ,那么 你 就 要 设法 改造 编译 器 去 解决 这 个 问题 。 

实际 上 ,Decaf 当前 版 本 的 参数 传递 方式 不 满足 多 数 MIPS 编译 器 (如 GCC 的 MIPS 编译 
器 ) 的 约定 。 一 般 情况 下 ,针对 MIPS 机 器 实现 参数 传递 ,首先 要 将 头 4 个 参数 传 至 寄存 器 
$a0 一 $a3 ,而 其 他 参数 (从 第 5 个 开始 ) 置 于 栈 上 ,在 callee 的 栈 帧 起 始 处 (参见 图 11. 8) 。 


11.2.7 基于 Decaf 编译 器 的 课程 设计 


前 面 分 5 个 阶段 介绍 了 Decaf 编译 器 的 结构 和 实验 框架 。 实 验 框架 的 最 新 版 软件 包 可 
从 出 版 单位 获取 。 这 一 软件 包 可 作为 编译 器 设计 实验 的 基础 。 下 面 简要 介绍 作者 在 教学 实 
践 中 的 一 些 具体 做 法 。 

总 体 来 看 ,实验 框架 的 5 个 阶段 涵盖 了 比较 多 的 知识 和 技术 要 点 ,有 一 定 的 工作 量 。 因 
此 ,应 当 根据 自身 课程 的 目标 和 要 求 制定 具体 的 课程 设计 方案 。 

在 作者 所 在 单位 ,Decaf 编译 器 的 实验 涉及 两 门 课程 。 在 “编译 原理 ”课程 中 ,是 将 实验 
框架 的 前 3 个 阶段 作为 主体 实验 的 基础 ,包括 词法 语法 分 析 、 语 义 分 析 和 中 间 代 码 生成 ,是 
必 做 的 内 容 。 而 后 2 个 阶段 (代码 优化 和 目标 代码 生成 ) ,或 者 布置 一 些 选 做 的 内 容 , 或 者 是 
建议 学 生 开 展 一 些 强 度 较 大 的 拓展 性 实验 。 然 而 ,近年 作者 所 在 单位 开设 了 “计算 机 系统 综 
合 实验 ”课程 ,后 2 个 阶段 的 实验 自然 成 为 其 中 编译 器 设计 的 主体 部 分 ,相关 内 容 在 “编译 原 
理 ” 课 程 中 就 理所当然 成 为 “ 选 做 ”的 了 。 

首先 介绍 一 下 之 前 在 “编译 原理 ”课程 中 的 做 法 。 每 次 实验 的 内 容 基 本 上 是 在 某 个 稳定 
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的 Decaf 编译 器 版 本 的 基础 上 进行 扩展 或 裁剪 ,不 同 程度 地 增加 或 减少 Decaf 语言 的 特征 。 
采取 的 方式 主要 有 两 类 。 一 类 是 分 阶段 提供 代码 框架 ,每 一 阶段 留 出 一 些 空白 部 分 , 留 给 学 
生 补 充 完成 ;新 一 阶段 开始 后 ,提供 给 学 生 新 阶段 的 代码 框架 (其 中 包含 一 份 关于 前 一 阶段 
的 “标准 ?实现 代码 ) 。 在 本 书 配套 的 软件 包 lab_decaf. decaf-proj-4PAs 中 提供 了 分 4 个 阶 
段 实验 的 例子 ,其 中 包含 了 4 个 阶段 的 代码 框架 、 相 关 类 文档 (实验 总 述 、 各 阶段 的 实验 指导 
书 和 实验 导 引 等 ) ,测试 用 例 以 及 其 他 参考 文档 。 前 3 个 阶段 是 必 做 ,第 4 个 阶段 是 选 做 。 

另 一 类 方式 是 提供 一 份 完整 的 Decal 编译 器 代码 ,每 个 阶段 的 工作 (增加 或 减少 Decal 
语言 特征 ) 都 是 学 生 在 自己 前 一 阶段 工作 的 基础 上 完成 。 本 书 配套 的 软件 包 lab_decaf. 
decaf-dev 中 ,提供 了 一 份 完整 的 Decaf 编译 器 代码 。 为 方便 对 应 ,这 份 代码 与 lab_decaf. 
decaf-proj-4PAs 中 的 Decaf 编译 器 代码 是 一 致 的 。 也 就 是 说 ,lab_decaf. decaf-proj-4PAs 中 
第 4 阶段 的 代码 框架 加 上 一 份 第 4 阶段 的 “标准 ”实现 ,就 是 lab_decaf. decaf-dev 中 的 完整 
代码 框架 。 源 码 位 置 均 在 各 包 的 src. decaf 目录 下 。 本 节 用 到 的 代码 片段 均 取 自 lab_ 
decaf. decaf-dev。 

为 使 每 次 实验 的 内 容 有 所 不 同 ,扩展 或 裁剪 的 内 容 应 适时 地 变换 ,这 在 实验 开始 前 必须 
做 好 相关 准备 工作 ,包括 代码 框架 .测试 用 例 以 及 相关 文档 的 修改 。 一 般 情况 下 ,语言 特征 
的 扩展 或 裁剪 不 必 使 整个 代码 框架 发 生 较 大 的 变化 ,实践 表明 ,每 次 实验 准备 的 工作 量 不 会 
很 大 。 但 在 认为 有 必要 时 ,也 可 能 需要 修改 抽象 语法 树 (AST) 的 结 点 种 类 ( 见 sre. decaf. 
tree) 和 三 地 址 码 (TAC) 的 语句 种 类 ( 见 sre. decaf. tac), 以 及 相应 地 调整 后 端 代码 (src. 
decaf. backend)。 少 数 情况 下 也 可 能 会 有 修改 TAC 模拟 器 的 需求 (例如 ,要 求 去掉 
instanceof 的 特征 ), 因 此 在 软件 包 的 lab_decaf. decaf-dev. tacvm-dev 中 也 提供 了 与 lab_ 
decaf. decaf-dev 中 Decaf 编译 器 版 本 对 应 的 一 份 TAC 模拟 器 源码 。 

除了 在 原来 代码 框架 上 添加 或 删除 等 较 小 的 改动 外 ,实验 内 容 上 还 可 以 提出 一 些 较为 
整体 的 需求 。 例 如 ,在 第 4 阶段 ,可 以 让 学 生 直接 添加 原 框 架 不 支持 的 数据 流 分 析 功 能 ,如 
到 达 - 定 值 数据 流 分 析 、DU 链 及 UD 链 等 ,或 者 实现 某 些 特定 的 优化 工作 ,测试 用 例 和 输出 
格式 等 均 由 学 生 自行 设计 。 又 如 ,在 lab_decaf. decaf-proj-4Pas 中 ,学生 在 使 用 lex 和 yace 
完成 第 一 阶段 的 词法 和 语法 分 析 器 后 ,我 们 还 布置 了 一 项 选 做 的 实验 任务 , 即 用 手工 构造 一 
个 自 上 而 下 的 语法 分 析 程 序 ( 词 法 分 析 程序 可 手工 构造 或 直接 使 用 lex 所 产生 的 代码 ) 重 新 
完成 第 一 阶段 的 任务 。 对 应 这 两 种 不 同 做 法 ,第 一 阶段 被 划分 为 PAIA 和 PA1B 两 个 
部 分 。 

关于 代码 优化 和 目标 代码 生成 的 实验 (第 4 阶段 和 第 5 阶段 ) ,在 作者 的 “编译 原理 ” 课 
程 中 仅 作为 选 做 或 拓展 的 实验 ,其 中 性 能 的 测试 环境 和 测试 方案 是 主要 挑战 之 一 。 而 在 “ 计 
算 机 系统 综合 实验 ”课程 中 ,代码 优化 和 目标 代码 生成 的 内 容 会 作为 一 般 性 要 求 ,首先 ,必须 
要 能 够 生成 自己 的 目标 环境 (自己 设计 的 可 运行 小 型 OS 内 核 的 处 理 器 ) 上 可 执行 的 代码 ; 
其 次 ,可 以 完成 任 选 的 优化 方案 ,利用 课程 提供 的 一 些 基准 程序 测试 整体 性 能 。 

本 节 对 实验 框架 中 的 后 端 部 分 (src. decaf. backend) 介 绍 得 较为 详细 。 一 方面 ,是 因为 
目前 的 框架 还 难以 对 这 部 分 内 容 给 出 一 般 性 要 求 ( 这 也 是 目前 在 “编译 原理 ”课程 主体 实验 
中 不 包含 第 4 阶段 和 第 5 阶段 的 原因 之 一 ) ,这 样 可 以 使 学 生 对 Decal 编译 器 后 端 有 一 个 整 
体 的 了 解 。 另 一 方面 ,这 些 内 容 还 可 以 作为 第 10 章 的 补充 ,使 学 生 能 够 体验 面向 真实 处 理 
器 的 代码 生成 过 程 。 
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11.3 软件 包 相 关 信 息 说 明 ? 


本 章 涉 及 两 个 软件 包 : lab_plO M lab_decaf. 

lab_plO 中 包含 分 别 由 Pascal.C 和 Java 实现 的 PL/0 编译 器 源码 ,以 及 部 分 PL/0 源 程 
序 (可 选 作 测 试用 例 )。Pascal 和 C 版 本 的 源码 与 附录 中 一 致 。lab_pl0 可 从 出 版 单位 的 资 
源 网 站 获取 。 

lab_decaf 中 包含 decaf-dev 和 decaf-proj-4Pas 两 个 部 分 。decaf-dev 中 包含 了 完整 的 
Decaf 实验 框架 的 一 个 版 本 ( 含 各 部 分 源码 .基础 文档 .测试 例子 以 及 相关 工具 )。decaf- 
proj-4Pas 中 是 作者 在 某 一 次 “编译 原理 ”课程 教学 中 采用 分 阶段 方式 为 学 生 布置 实验 作业 
的 例子 (参考 11. 2.7 节 )。 

Decaf 实验 框架 中 用 到 的 基本 软件 工具 包括 : (1) SPIM 模拟 器 5 ; (2)Jflex 和 
BYACC/J&7) 9 lex 和 yace 的 某 种 可 生成 Java 代码 的 版 本 ;(3)TAC 模拟 器 ( 见 lab_decaf. 
decaf-dev. tacvm-dev), Python 以 及 Eclipse 是 建议 使 用 的 工具 ,可 以 自行 从 相关 资源 网 站 
下 载 。 另 外 ,decaf-proj-4Pas 中 包含 了 课程 助教 曾 用 过 的 评分 小 工具 ( 见 lab_decaf. decaf- 
proj-4Pas. mark) , 谨 供 参考 。 

lab_decaf 包 不 属于 本 书 正 式 出 版 的 部 分 , 仅 是 作为 教学 交流 的 资源 。 鉴 于 此 ,11. 2 节 
尽 可 能 自 成 体系 。 没 有 lab_decaf 包 ,读者 也 能 了 解 Decal 编译 器 的 基本 结构 和 设计 思想 。 
对 于 “编译 原理 ?相关 课程 的 教师 ,需要 时 可 以 与 出 版 社 或 作者 联系 ,免费 索取 与 本 章 内 容 对 
应 的 lab_decaf 包 版 最 新 版 本 ,以 及 作者 近期 的 “编译 原理 ”课程 设计 实际 样 例 与 相关 材料 。 

此 外 ,在 作者 所 在 单位 开设 的 “计算 机 系统 综合 实验 ”课程 中 试用 过 一 个 基于 Decal K 
验 框架 的 C 语言 子 集 2 编 译 器 版 本 。 目 前 不 打算 将 这 个 版 本 纳入 本 书 的 软件 包 中 。 如 果 有 
需要 交流 的 相关 课程 教师 ,欢迎 直接 联系 作者 索取 。 


QD 本 章 涉及 的 两 个 编译 器 实验 框架 多 年 来 由 许多 参与 助教 工作 的 同学 不 断 维护 ,修改 和 完善 ,在 此 特别 向 他 们 致 
谢 。 参 与 PL0 实验 的 助教 : RRR BR ER RT MAH SH Decal 实验 的 助教 : RRR KE WR FR, HE 
宇 , 许 建 林 , 谢 宇 轩 , 唐 硕 , 毛 雁 华 , 蒋 波 , 张 迎 辉 , 刘 天 毒 ,高 崇 南 等 。 由 于 统计 遗漏 ,有 一 些 同 学 未 列 出 ,在 此 一 并 致谢 。 
杨 俊 峰 校友 在 引入 Decaf 实验 时 提供 了 帮助 。 当 前 Decaf 实验 框架 基于 Julie Zelenski 教授 教学 组 的 原始 工作 ,并 参考 了 
Alex Aiken 教授 的 工作 ,在 此 向 他 们 深 表 感谢 。 

© ”北京 航空 航天 大 学 张 莉 老 师 为 作者 提供 了 C0 语言 的 两 个 定义 版 本 ,作者 在 此 深 表 感谢 。 这 里 的 C 语言 子 集 采 
用 了 扩展 版 的 C0 语言 。 
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第 12 章 编译 器 和 相关 工具 实例 
—GCC/Binutils 


前 面 各 章 介 绍 了 编译 的 基本 技术 以 及 编译 器 的 一 般 工作 原理 ,具体 讲解 了 编译 器 从 源 
语言 到 目标 语言 的 翻译 步骤 和 方法 。 本 章 介绍 一 个 现实 中 广泛 使 用 的 编译 器 工具 GCC, 
通过 这 个 实例 来 巩固 本 课程 的 知识 。 

GCC 具备 很 多 技术 特点 。 第 一 是 多 语言 支持 ,并 且 能 够 很 方便 地 扩展 新 的 编程 语言 的 
前 端 ; 第 二 是 GCC 主要 采用 C/C++ 语言 实现 ,具有 很 强 的 可 移植 性 ;第 三 是 处 理 器 支持 非 
常 丰富 ,GCC 支持 从 8 位 一 直到 64 位 绝 大 多 数 常见 的 处 理 器 。 

GCC 应 用 范围 非常 广 , 在 计算 机 世界 的 影响 巨大 。 其 应 用 范围 覆盖 了 几乎 所 有 领域 ， 
从 高 性 能 计算 ,到 商用 服务 器 ,到 桌面 PC 和 笔记 本 ,再 到 手机 等 移动 设备 ,一 直到 GCC 占 
支配 地 位 的 工业 控制 等 嵌入 式 系统 。 

作为 一 个 应 用 广泛 的 编译 器 ,GCC 具备 了 很 多 现代 编译 系统 的 一 般 特征 ,涵盖 了 本 书 
涉及 的 绝 大 多 数 知识 。 同 时 GCC 是 一 个 开源 软件 ,可 以 通过 网 络 来 获得 GCC 的 源 代码 , 通 
过 阅读 文献 .阅读 代码 和 跟踪 调试 等 方法 来 深入 了 解 ,学习 这 个 真实 可 用 的 编译 器 。 更 进 一 
步 , 通 过 学 习 , 理 解 之 后 ,还 可 以 动手 进行 GCC 编译 器 的 改进 工作 。 

此 外 ,伴随 着 30 余年 的 不 断 开发 ,GCC 具有 良好 的 模块 化 设计 方案 ,清晰 地 划分 为 前 
端 .中 端 和 后 端 ,模块 之 间 松散 耦合 ,方便 使 用 者 对 其 进行 修改 和 扩充 ,同时 也 保持 着 良好 的 
优化 效率 。 因 此 ,从 软件 工程 角度 来 看 ,GCC 完全 是 一 个 软件 模块 化 设计 的 成 果 典 范 。 

Binutils(GNU Binary Utilities, GNU 二 进 制 工具 )[9 是 一 组 开源 工具 ,其 中 包括 汇编 
器 .链接 器 和 一 系列 目标 代码 工具 ,用 来 处 理 各 种 格式 的 目标 文件 。Binutils 和 GCC 共享 
一 系列 文件 ,可 以 利用 这 些 软件 来 完成 目标 文件 的 生成 、 查 看、 修改 和 分 析 等 工作 。 

本 章 首先 介绍 开源 编译 器 GCC ,接着 介绍 Binutils 的 功能 ,最 后 通过 一 系列 程序 实例 来 
了 解 这 些 工 具 的 作用 和 使 用 。 


12.1 开源 编译 器 GCC 


GCC 全 称 是 GNU Compiler Collection (GNU 编译 器 集 )。GCC 发 源 于 自由 软件 基金 
会 的 GNU 计划 ,遵循 GNU 公共 许可 授权 ,是 一 个 自由 软件 ,根据 该 授权 协议 ,任何 人 都 可 
以 免费 获得 GCC 源 代码 ,同时 任何 人 都 可 以 随意 进行 修改 ,关键 的 一 点 在 于 如 果 你 修改 了 
这 个 软件 ,那么 修改 之 后 的 成 果 也 应 该 公开 发 布 并 让 其 他 开发 人 员 可 以 自由 获得 。GCC 是 
GNU 工具 链 里 最 基本 的 东西 ,在 GNU 工具 中 处 于 核心 地 位 , 它 是 一 个 功能 强大 的 编译 器 ， 
很 多 UNIX/Linux 操作 系统 都 使 用 GCC 作为 标准 编译 器 。 

GCC 最 早 叫 做 GNU C Compiler, BI GNU 的 C 语言 编译 器 ,后 来 随 着 各 种 语言 支持 的 
加 入 ,前端 扩展 越 来 越 多 ,逐步 支持 了 越 来 越 多 种 的 语言 ,所 以 就 改名 为 GNU Compiler 
Collection。 实 际 上 ,由 于 GCC 不 仅仅 是 一 个 具体 的 编译 器 ,而 且 提 供 了 一 系列 开发 编译 工 
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有 具 的 软件 模块 和 工具 ,是 一 个 完整 的 编译 程序 开发 环境 ,因此 人 们 通常 也 称 GCC 是 一 个 编 
译 基 础 设施 。 


12.1.1 GCC 介绍 


从 一 个 高 级 语言 (如 C 语言 ) 程 序 翻译 到 一 个 低级 语言 ,最 终 变 成 一 个 可 执行 文件 ， 
GCC 的 完整 处 理 过 程 如 图 12. 1 所 示 ,要 经 过 如 下 几 步 : 第 一 步 是 预 处 理 ,生成 一 种 文本 表 
示 ( 实 质 上 是 展开 了 宏和 头 文件 的 C 语言 文件 ) ,在 GCC 里 命名 为 .i 文件 ;之 后 会 进入 正式 
的 编译 , 它 是 从 高 级 语言 到 汇编 语言 的 翻译 ,在 GCC 中 ,是 从 高 级 语言 的 . i 文件 到 汇编 语言 
的 .s 文 件 ,主要 的 优化 工作 都 集中 在 这 个 过 程 中 ;编译 生成 了 汇编 程序 ,再 经 过 汇编 器 ,生成 机 
器 码 的 目标 程序 ;链接 器 把 若干 个 相关 的 . o 目标 文件 链接 在 一 起 生成 一 个 可 执行 文件 。 


( 输入 文件 ) 
gce © 
a 
sy *s/ *.0 
*iifi 1 | *S 
cpp = aa = as = Id 
预 处 理 编译 汇编 链接 


图 12.1 GCC 工作 过 程 示 意图 


从 广义 上 讲 , 以 上 所 有 环节 统称 编译 ;而 从 狭义 上 讲 只 有 高 级 语言 到 汇编 语言 的 环节 称 
为 编译 。GCC 需要 和 汇编 器 、 链 接 器 共同 配合 才能 完成 上 述 全 部 工作 ,把 高 级 语言 变 成 可 
执行 的 机 器 码 。 本 节 介 绍 编译 器 结构 只 针对 其 中 的 C 语言 编译 器 ccl ,其 任务 是 完成 C 语 
言 到 特定 汇编 语言 的 翻译 工作 ,12. 2 节 将 介绍 其 他 相关 工具 。 

先 简要 叙述 GCC 的 发 展 历程 。1984 年 开始 有 了 GNU Project,1985 年 的 时 候 GCC 项 
目 正式 启动 ,到 了 1987 年 ,GCC 的 1.0 版 发 布 了 , 它 是 一 个 C 语言 编译 器 ,号 称 世 界 上 第 一 
个 可 移植 的 标准 C 语言 优化 编译 器 ,并 且 是 开源 软件 。1992 年 GCC 2. 0 发 布 , 从 技术 角度 
上 讲 ,其 最 大 的 特点 是 增加 了 对 C++ 的 支持 ,前端 更 加 丰富 了 ,原来 只 支持 C 一 种 语言 , 现 
在 支持 两 种 语言 ,支持 更 多 的 语言 是 2. 0 的 一 个 很 重要 的 特点 。1997 年 ,很 多 人 都 认为 
GCC 发 展 太 慢 , 于 是 出 现 了 EGCS(Experimental/Enhanced GNU Compiler System) 分支， 
很 多 开发 者 在 这 个 分 支 上 工作 ,该 分 支 的 开发 进度 和 代码 优化 质量 要 比 GCC 的 主 分 支 做 得 
好 很 多 ,所 以 到 了 2001 年 ,GCC 3.0 发 布 的 时 候 ,GCC 的 主 分 支 就 与 EGCS 分 支 合并 了 ,这 
时 候 GCC 已 经 变 成 了 一 款 多 语言 多 目标 系统 的 编译 器 ,就 是 说 前 端 支持 更 多 种 语言 ,后 端 
支持 更 多 种 体系 结构 的 处 理 器 ,从 最 早 支 持 的 C 语言 到 X86 体系 结构 的 编译 ,到 后 来 支持 
的 语言 越 来 越 多 ,到 3.0 的 时 候 GCC 已 经 具备 了 现代 编译 器 的 特点 ,被 称 为 Compiler 
Infrastructure, 它 提供 了 很 多 工具 以 方便 编译 器 构造 。2005 年 .GCC 4.0 发 布 了 , 它 的 最 大 
技术 特点 是 增加 了 新 的 中 间 表 示 , 具 备 了 更 强 的 优化 的 能 力 , 后 面 将 会 大 致 介绍 其 结构 。 截 
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至 2015 年 初 , 最 新 的 GCC 版 本 5.0 即将 发 布 。 

从 GCC 30 余年 的 发 展 历程 可 以 看 出 ,从 最 早 单 语 言 单 目标 系统 的 编译 器 ,到 后 来 多 语 
言 多 目标 系统 的 编译 器 基础 设施 ,伴随 着 中 间 表 示 的 不 断 发 展 ,优化 性 能 也 不 断 提高 ,这 也 
是 整个 编译 器 领域 发 展 的 脉络 。 


12.1.2 GCC 总 体 结构 


现代 编译 器 通常 按照 编译 处 理 阶段 来 划分 软件 的 模块 ,大 致 分 为 3 个 模块 : 语言 相关 
的 前 端 优 化 为 目标 的 中 端 和 系统 结构 相关 的 后 端 。 其 中 前 端的 任务 是 把 源码 变 成 一 种 和 
语言 无 关 的 中 间 表 示 ,完成 词法 和 语法 分 析 、 检 查 ;中 端的 目的 之 一 是 将 前 端 和 后 端 语 言 
体系 结构 之 间 的 耦合 降 到 最 低 , 另 外 ,还 提供 一 种 语言 无 关 、 体 系 结构 无 关 的 优化 架构 ,通过 
优化 方法 的 合理 组 织 达 到 更 高 的 性 能 、 更 小 的 存储 空间 、 更 低 的 功 耗 等 优化 目标 ;后 端的 主 
要 任务 是 生成 机 器 相关 的 目标 码 , 利 用 目标 机 器 的 特征 ,开展 包括 指令 选择 、 寄 存 器 分 配 、 指 
令 调度 等 一 系列 体系 结构 相关 的 工作 ,最 终生 成 目标 代码 。 

GCC 的 结构 一 直 处 于 不 停 的 发 展 变化 中 ,不 同 版 本 GCC 的 结构 并 不 完全 相同 。 


12.1.1.1 GCC 3 结构 


现在 我 们 开始 探索 GCC 的 C 编译 器 的 结构 ,图 12. 2 是 GCC3.X 的 体系 结构 ,前 端 \ 后 
端 划分 比较 明确 。 从 C 源码 生成 GCC 内 部 树 , 然 后 通过 expander 展开 生成 中 间 表 示 
RTL ,然后 所 有 的 优化 工作 都 集中 在 RTL Optimizer, 之 后 做 代码 生成 ,最 终生 成 目标 文件 ， 
所 有 的 语言 都 是 这 样 的 流程 。 通 常 将 RTL 生成 之 前 的 部 分 称 为 前 端 ,RTL 优化 和 最 后 的 
代码 称 为 后 端 。GCC 3. X 这 种 结构 的 问题 在 于 RTL 中 间 表 示 ,该 中 间 表 示 与 体系 结构 密 
切 相关 ,这 给 体系 结构 无 关 优 化 的 开展 带 来 了 很 大 的 困难 ,因此 ,很 多 现代 优化 研究 成 果 很 
难 直接 应 用 到 当时 的 GCC 中 ,所 以 后 来 的 GCC 4 在 中 间 表 示 方 面 做 了 很 大 的 改动 。 


FRONT/MIDDLE END 
€ C 
一 一 
trees expander 
BACK END 
CH CH RTL Code Object 
-| = aa - 
trees expander Optimizer Generator Code 


Java Java 
H 
trees expander 


12.2 GCC 3.X 结 构 示 意图 
引 自 : “From Source to Binary: The Inner Workings of GCC” by Diego Novillo 


12.1.1.2 GCC 4 结构 


GCC 4 F 2005 年 发 布 ,其 整体 结构 作 了 很 大 的 改动 .RTL 在 体系 结构 中 的 位 置 进行 了 
调整 ,在 它 之 前 加 入 了 两 种 中 间 表 示 ,一 种 叫做 GIMPLE, 另 一 种 叫做 GENERIC, 编译 过 
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程 中 , 源 语 言 首先 翻译 成 GENERIC, 然 后 通过 化 简 转 换 成 GIMPLE ,两 种 都 是 语言 无 关 、 体 
系 结构 无 关 的 中 间 表 示 , 之 后 在 GIMPLE 中 间 表 示 层 面 开 展 优化 ,优化 之 后 再 转化 为 
RTL, 然 后 对 RTL 再 进行 一 次 优化 ,最 终生 成 汇 代 码 编 代 码 。 这 里 ,我 们 称 GIMPLE 之 前 
的 部 分 为 前 端 ,GIMPLE 优化 和 RTL 生成 为 中 端 ,而 RTL 优化 和 代码 生成 部 分 为 后 端 ,如 
图 12.3 所 示 。 可 以 看 出 GCC 4 在 中 端 加 入 了 体系 结构 无 关 的 优化 。 这 样 的 方案 不 仅 增强 
了 GCC 的 优化 能 力 , 也 使 得 前 端 和 中 端的 耦合 度 大 大 降低 。 


FRONT END 


C Cto 


trees = 
CH CHto ann ce 

trees | | GENERIC| GENERIC Gimplify ~ 
Java Javato / 


trees GENERIC 


MIDDLE END 


` Tree SSA 
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图 12.3 GCC 4.X 结 构 示 意图 
引 自 :“From Source to Binary: The Inner Workings of GCC”by Diego Novillo 


12.1.3 GCC 编译 流程 


下 面 以 GCC 4. X 为 例 , 大 致 介绍 GCC 编译 器 从 源 代码 到 汇编 代码 的 转换 过 程 ,其 基本 
工作 流程 如 图 12. 4 所 示 。 其 中 从 上 到 下 是 转换 的 过 程 ,中 间 方 框 是 被 转换 对 象 ,箭头 是 转 
换 操 作 ,右边 标明 一 般 转 换 操 作 的 位 置 和 名 称 ,左边 部 分 是 优化 的 位 置 和 名 称 。 总 体 来 看 ， 
GCC 4 包括 2 次 优化 .3 种 中 间 表 示 和 4 步 转换 。 


首先 来 看 图 的 中 间 部 分 Representation, M C.C ++ 等 源 代 码 到 最 终 的 汇编 代码 ， 
经 过 了 3 种 中 间 表 示 : GENERIC.GIMPLE fil RTL. 
再 来 考查 图 中 右边 部 分 Translation Action , 共 分 为 4 步 转换 ,第 一 步 是 Parser, 源 


代码 生成 了 GENERIC, 该 中 间 表 示 中 的 信息 很 完整 ,只 是 不 方便 做 优化 ;第 二 步 是 生成 
”339。 


Optimizer Representation Translate Action 
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RTL Pass 
RTL Opt l Code Generation 
ASM 


图 12.4 GCC 4.X 从 源 代码 到 汇编 代码 的 转换 过 程 示意 图 


GIMPLE, 称 为 Gimplification; 第 三 步 通 过 Expanding 生成 RTL; 最 后 通过 Code 
Generation 生成 汇编 代码 。 

图 左边 给 出 了 相应 的 优化 ,一 是 对 GIMPLE 进行 Tree 优化 ,二 是 围绕 RTL 的 优化 。 

因此 ,简单 归纳 一 下 ,GCC4 的 特点 可 以 描述 为 : 3 种 中 间 表 示 , 进 行 4 步 转换 ,经 过 2 
次 优化 。 下 面 看 一 下 每 个 转换 步骤 的 具体 细节 。 

GCC 4.X 内 部 转换 Parsing( 语 法 分 析 ) ,这 是 该 编译 器 中 第 一 次 内 部 转换 , 它 的 任务 是 
把 文本 格式 的 源码 变 成 字 节 方式 的 中 间 表 示 GENERIC。 接 下 来 的 内 部 转换 为 Gimplifyer 
(中 间 表 示 化 简 ) ,将 GENERIC 化 简 为 另外 的 内 部 表示 GIMPLE。 

GIMPLE 是 一 种 低层 的 树 形 中 间 表 示 , 可 以 看 作 GENERIC 的 一 个 简化 子 集 , 主 要 特 
点 就 是 更 加 简单 ,易于 实现 优化 ,GCC 4 所 有 体系 结构 无 关 的 优化 都 在 GIMPLE 的 基础 上 
开展 。 

GCC 4. X 内 部 转换 Tree Optimization( 树 优化 ) ,这 是 从 GCC 4. 0 开始 引入 的 基于 
GIMPLE 的 全 新 的 优化 ,主要 是 数据 流 相 关 的 体系 结构 无 关 优 化 。 

GCC 4, X 内 部 转换 Expanding( 中 间 表 示 展 开 ) ,这 是 GIMPLE 优化 之 后 进行 的 一 步 转 
换 , 将 内 部 的 GIMPLE 中 间 表 示 转 换 成 体系 结构 相关 的 中 间 表 示 RTL。 这 是 GCC 中 很 关 
键 的 一 步 ,Tree 实现 了 语言 无 关 的 表示 ,所 有 语言 无 关 、 体 系 结构 无 关 的 优化 都 必须 在 这 一 
步 之 前 完成 。 

Expanding 之 后 就 生成 了 GCC 的 传统 中 间 表 示 RTL( Register Transfer Language). 
这 是 一 个 依赖 于 特定 目标 机 器 的 重要 中 间 表 示 , 很 接近 汇编 指令 ,同时 ,经 过 一 系列 转换 ， 
RTL 已 经 不 包含 源 程序 的 完整 信息 。 

GCC 在 RTL 层面 开展 各 种 体系 结构 相关 的 优化 ,之 后 进入 最 后 的 代码 生成 阶段 ,最 终 
生成 汇编 代码 的 步骤 称 作 Code Generation( 代 码 生成 ) ,在 GCC 中 的 名 称 叫做 Final。 在 此 
之 前 要 进行 寄存 器 分 配 以 及 指令 调度 等 和 体系 结构 密切 相关 的 工作 ,代码 生成 以 及 之 后 所 
有 的 工作 都 是 以 函数 为 单位 进行 的 ,也 就 是 说 ,在 CG 之 后 所 有 C 程序 代码 都 按照 函数 为 单 
位 转换 成 汇编 代码 。 
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12.1.4 GCC 代码 组 织 


前 面 讲 了 GCC 中 编译 转化 过 程 。 如 果 和 希望 理解 GCC 编译 器 这 样 的 大 型 复杂 软件 ,不 
仅 需要 了 解 其 基本 结构 ,还 需要 研究 其 静态 代码 组 织 ,更 进一步 还 需要 通过 跟踪 和 调试 来 深 
入 学 习 其 代码 。 

这 里 介绍 GCC 的 源码 结构 。 在 2014 年 底 发 布 的 GCC 4. 8.4 版 本 中 ,完整 的 软件 包 中 
含有 约 84 000 个 文件 , 约 4 800 000 行 源 代 码 , 占 用 空间 大 约 705MB。 整 个 源 代码 树 中 包含 
很 多 内 容 , 有 些 是 和 工具 软件 Binary Utilities 共享 的 库 文件 ,其 他 的 文件 可 以 分 为 几 个 目录 : 
boehm-gc/ contrib/ 等 。 其 中 有 3 个 关键 的 目录 ,一 个 是 gcc/ ,这 是 GCC 核心 的 代码 ,所 有 
和 中 间 表 示 有 关 的 语言 相 关 的 、 目 标 机 相关 的 代码 都 在 此 目录 中 ,还 包含 一 组 测试 程序 集 
(位 于 目录 gce/testsuit/) ,汇集 了 GCC 开发 过 程 中 重要 的 测试 用 例 ,方便 开发 者 进行 回归 
测试 。 另 外 两 个 关键 目录 是 include/ 和 config/ ,包含 了 与 各 种 语言 相关 的 头 文件 和 配置 文 
件 。gcc/ 目 录 是 我 们 关注 的 重点 。 

(1) gcc/ 目 录 下 前 端 目录 结构 。gcc/ 目 录 下 对 于 每 一 种 语言 都 会 有 一 个 单独 的 目录 ， 
目录 名 字 与 每 种 语言 的 名 字 相 同 ,每 个 目录 中 至 少 包含 以 下 几 个 文件 : config-lang. in, 
Make-lang. in \lang. opt ,lang-specs. h 和 language-tree. def, 

(2) gcc/ 目 录 下 后 端 目 录 结 构 。 后 端 是 关于 机 器 的 描述 ,通过 一 些 描述 机 器 的 头 文件 
来 自动 生成 后 端 。 以 mcore 体系 结构 为 例 , 该 系统 由 FreeScale 公司 开发 ,其 后 端 只 包含 
9 个 文件 。MIPS、IA64 架构 等 很 多 芯片 的 描述 文件 也 不 过 几 十 个 。 这 从 另 一 方面 说 明 
GCC 后 端 非常 便于 重 定向 以 支持 新 的 体系 结构 。 


12.1.5 小 结 


本 节 初 步 介 绍 了 一 个 使 用 广泛 的 开源 优化 编译 器 GCC, 包 括 其 总 体 结构 ,编译 流程 和 
代码 组 织 。12. 2 节 将 介绍 和 GCC 关系 非常 密切 的 工具 Binutils。 


12.2 开源 工具 Binutils 


Binutils(GNU Binary Utilities, GNU 二 进 制 工具 ) 是 一 个 开源 工具 软件 集 , 用 于 处 理 
各 种 格式 的 目标 文件 。 通 常 和 GCC 编译 工具 以 及 相关 的 调试 工具 一 起 配合 使 用 ,用 于 完成 
目标 文件 的 生成 ,查看 、 修 改 和 分 析 等 工作 。 这 些 工具 自身 都 比较 小 巧 ,它们 都 共享 二 进 制 
文件 描述 库 以 处 理 多 种 文件 格式 。 


12.2.1 目标 文件 


目标 代码 (object code) 是 可 以 直接 运行 的 .二进制 编码 格式 的 计算 机 指令 序列 。 目 标 
文件 (object files) 是 由 目标 代码 对 象 组 织 而 成 的 。 
目标 文件 由 各 种 不 同 的 代码 节 (code section) 和 数据 节 (data section) 组 成 ,通常 都 是 利 
用 编译 器 等 工具 由 源 代码 程序 自动 生成 。Linux、Solaris 等 现代 UNIX 类 操作 系统 中 通常 
使 用 UNIX ELF(Executable and Linkable Format) 作 为 目标 文件 的 格式 。 
ELF 目标 文件 有 3 种 形式 : 可 重 定位 (relocatable) 目 标 文件 ,由 编译 器 或 汇编 器 生成 ， 
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可 以 与 其 他 可 重 定 位 目标 文件 合并 创建 一 个 可 执行 目标 文件 ;可 执行 (executable) 目标 文 
件 , 由 链接 器 生成 ,可 以 直接 被 加 载 到 内 存 中 执行 ;共享 (shared) 目 标 文 件 , 是 一 类 特殊 的 可 
重 定位 目标 文件 ,可 以 在 加 载 时 或 运行 时 动态 加 载 到 内 存 并 执行 。 图 12. 5 给 出 典型 的 
ELF 可 重 定位 目标 文件 的 结构 图 。 


ELF 头 

-text( 已 编译 的 机 器 代码 ) 

-rodata( 只 读数 据 ) 

-data( 已 初始 化 的 全 局 变量 ) 

-bss( 未 初始 化 的 全 局 变量 ) 
.symtab( 符 号 表 ) 
.Tel.text(.text 节 中 需要 修改 的 位 置 ) 
-rel.data( 全 局 变量 的 可 重 定位 信息 ) 
.debug( 调 试 符号 表 ， 包 括 局 部 变量 定义 ) 
.line( 源 程序 中 行 号 和 .text 节 中 指令 的 映射 ) 
:strtab( 字 符 串 表 ， 以 NULL 为 结尾 的 字符 串 序 列 ) 
section header table( 节 头 部 表 ) 


图 12.5 典型 ELF 可 重 定位 目标 文件 的 结构 


图 12.5 中 ,ELF 头 最 初 的 16 字 节 描述 了 字 的 大 小 以 及 生成 该 文件 的 机 器 字 节 顺序 ， 
剩 下 的 部 分 都 是 关于 目标 文件 的 信息 ,包括 ELF 头 的 大 小 .目标 文件 的 类 型 .机 器 类 型 、. 节 
头 部 表 的 偏 移 量 以 及 节 头 部 表 中 表 目 的 大 小 和 数量 。 而 节 头 部 表 (section header table) fii 
述 了 各 个 节 的 位 置 和 大 小 。 

位 于 ELF 头 和 节 头 部 表 之 间 的 都 是 节 。 如 编译 产生 的 机 器 代码 保存 在 . text 节 中 , 初 
始 化 的 全 局 变量 保存 在 . data 节 中 ,未 初始 化 的 全 局 变量 保存 在 . bss 节 中 ,全 局 变量 的 可 重 
定位 信息 保存 在 . rel 节 中 等 。 后 续 的 链接 器 就 是 通过 读 取 可 重 定位 文件 中 的 信息 进行 目标 
文件 的 链接 处 理 , 而 其 他 工具 的 功能 主要 也 是 对 这 些 信息 的 操作 。 

可 执行 目标 文件 通常 是 多 个 可 重 定位 目标 文件 链接 之 后 生成 的 可 以 直接 装载 到 内 存 并 
执行 的 目标 文件 ,其 结构 与 可 重 定位 目标 文件 的 格式 相似 ,不 同 之 处 在 于 ELF 头 还 包含 程 
序 的 入 口 点 ,也 就 是 程序 要 执行 的 第 一 条 指令 的 地 址 ,不 再 包含 可 重 定位 信息 ( 即 . rel 节 )， 
同时 增加 了 描述 运行 前 的 初始 化 信息 和 执行 过 程 中 内 存 分 布 信息 。 

共享 库 目 标 文件 是 动态 运行 时 库 ( 动 态 库 ) 的 组 成 部 分 。 这 些 文件 在 运行 时 才 和 可 执行 
文件 进行 链接 ,在 加 载 之 前 只 作 一 个 预 链 接 ,然后 在 加 载 的 时 候 再 进行 重 定位 ,找到 变量 真 
正定 义 的 地 方 。 动 态 库 放 在 内 存 中 某 一 个 特定 的 地 方 ,系统 启动 之 后 就 把 它们 加 载 进 来 ,所 
有 的 引用 都 将 到 这 个 特定 地 方 去 获取 。 

在 运行 之 前 ,将 所 有 可 重 定向 目标 文件 完整 链接 成 为 一 个 单独 可 执行 目标 文件 的 过 程 
是 静态 链接 ;而 在 运行 之 前 进行 预 链接 ,形成 使 用 共享 库 目标 文件 的 可 执行 目标 文件 的 过 程 
是 动态 链接 。 


12.2.2 汇编 器 和 链接 器 


汇编 器 (assembler) 将 汇编 助 记 程序 翻译 为 机 器 指令 ,同时 解析 符号 名 称 并 为 之 进行 存 
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储 分 配 ,汇编 器 使 用 符号 (如 变量 名 、 函 数 名 ) 来 解决 地 址 的 引用 计算 。gas (GNU 
assembler, GNU 汇编 器 ) 是 二 进 制 工具 的 一 部 分 ,其 输入 汇编 文件 是 col 的 编译 结果 ,经 过 
汇编 器 处 理 之 后 生成 可 重 定位 目标 文件 。 

链接 器 (linker) 把 不 同 可 重 定向 目标 文件 的 代码 和 数据 收集 .组 合成 为 一 个 可 加 载 、 可 
执行 的 文件 。 链 接 过 程 中 进行 代码 和 数据 合并 、 符 号 解析 和 重 定位 ,静态 链接 之 后 将 得 到 单 
个 可 执行 目标 文件 ,动态 链接 得 到 一 个 包含 共享 库 目 标 文 件 引用 的 可 执行 目标 文件 。1d 是 
二 进 制 工具 的 一 部 分 ,负责 完成 可 重 定位 目标 文件 的 链接 。 


12.2.3 其 他 工具 


开源 工具 软件 集 Binutils 中 还 包含 一 些 用 于 处 理 各 种 格式 目标 文件 的 工具 ,帮助 理解 
和 处 理 目标 文件 ,以 实现 目标 文件 的 查看 、 修 改 和 分 析 等 工作 ,同时 支持 库 文件 的 生成 和 修 
改 等 。Binutils 中 包括 如 下 主要 工具 。 

AR: 创建 静态 库 , 插 入、 删除 、 列 出 和 提取 成 员 。 

STRINGS: 列 出 目标 文件 中 所 有 可 以 打印 的 字符 串 。 

STRIP: 从 目标 文件 中 删除 符号 表 信息 。 

NM: 列 出 目标 文件 符号 表 中 定义 的 符号 。 

SIZE: 列 出 目标 文件 中 节 的 名 字 和 大 小 。 

READELF; 显示 一 个 目标 文件 的 完整 结构 ,包括 ELF 头 中 编码 的 所 有 信息 。 

OBJDUMP: 显示 目标 文件 的 所 有 信息 ,最 有 用 的 功能 是 反 汇 编 . text 节 中 的 二 进 制 


指令 。 
12.2.4 小 结 


本 节 介 绍 和 GCC 编译 工具 以 及 相关 的 调试 工具 一 起 配合 使 用 ,以 处 理 各 种 格式 的 目标 
文件 的 开源 工具 软件 集 Binutils。 该 工具 通常 用 于 完成 目标 文件 的 生成 、 查 看、 修改 和 分 析 
等 工作 ,一 方面 , 它 是 高 级 语言 编译 过 程 中 必 不 可 少 的 工具 ; 另 一 方面 , 它 也 可 以 帮助 我 们 理 
解 和 调试 程序 。 熟 悉 这些 工 具 的 基本 原理 和 使 用 ,将 有 助 于 我 们 提高 软件 开发 能 力 。 


12.3 ”编译 器 和 工具 使 用 实例 


本 节 将 以 GCC 4. 8.4 为 例 给 出 编译 过 程 和 使 用 实例 。 实 验 的 环境 是 操作 系统 Ubuntu 
Linux 12. 04 ,硬件 平台 为 Intel x86 平台 。 为 了 编译 GCC ,需要 安装 一 个 可 用 的 C 语言 编译 
器 和 一 系列 相关 工具 ,包括 gcc 编译 器 、Binutils 工具 .词法 分 析 工 具 Flex 和 语法 分 析 工 具 
bison 等 。 


12.3.1 编译 特定 版 本 的 编译 器 


编译 特定 版 本 的 编译 器 是 一 件 相当 容易 的 事情 ,需要 遵循 下 面 的 一 系列 步骤 。 
(1) 建立 目录 结构 。 为 了 便于 管理 ,需要 将 不 同 阶段 的 代码 和 文件 分 别 存放 在 不 同 目 
录 中 ,这 里 将 使 用 到 的 目录 有 源 代码 目录 src、 编 译 过 程 目录 build, Z4% AR usr 和 演示 目 
录 show。 
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mkdir gcc-4. 8. 4 
cd gcc-4. 8. 4/ 


mkdir sre build usr show 


(2) 获取 源 代 码 包 。 从 GCC 官方 网 站 (gcc. gnu. org) 下载 完整 的 代码 包 gcc-4. 8. 4 
. tar. bz2 ,存放 在 gcc-4. 8.4 目录 中 ,并 将 其 展开 到 src 目录 下 。 


tar --strip-components= l —-directory=sre -jxvf . /gcc-4. 8. 4. tar. bz2 


这 时 ,可 以 使 用 tar 和 du 命令 来 查看 该 源 代 码 包 展 开 之 后 的 文件 个 数 和 所 占 存 储 空 
间 。 这 里 we 得 到 的 结果 中 第 一 个 数字 为 84 917, 是 该 软件 包 中 文件 和 目录 的 个 数 。du 的 
输出 结果 即 这 些 文件 所 占用 的 硬盘 存储 空间 ,为 705MB。 


tar -jtvf . /gcc-4. 8. 4. tar. bz2 | we 
du . /src -h 


12.3.1.1 环境 和 配置 


GCC 编译 器 具有 多 语言 ,多 体系 结构 支持 能 力 ,配置 过 程 中 需要 关注 build (构建 环 
KE) ,host( 宿 主 环境 ) 和 target( 目 标 环境 ) 的 概念 。build 要 指定 编译 器 当前 编译 平台 的 体系 
结构 ,host 设 定编 译 器 的 运行 环境 ,而 target 即 目标 体系 结构 ,是 编译 器 生成 代码 的 运行 
平台 。 

上 述 概念 可 以 很 直观 地 利用 工 形 图 (Tombstone diagrams, T-diagrams) jH. T BA 
含 3 种 图 形 , 见 图 12.6, 其 中 图 Ca) 表示 用 语言 二 书写 的 应 用 程序 已 ,图 (b) 表 示 目 标 机 器 
M, 而 图 (c) 表 示 用 语言 L 书写 的 编译 器 ,该 编译 器 将 S 语言 编译 为 工 语言 。 利 用 这 3 种 图 
形 的 组 合 , 可 以 描述 语言 和 编译 相关 的 基本 概念 。 


( p ) ST 


L L 


(a) 应 用 程序 (b) 目标 机 器 (c) 编译 器 
12.6 ARAMA TA 


图 12.7 描述 应 用 程序 sort 的 编译 和 运行。 左边 部 分 表示 编译 过 程 , 用 C 语言 编写 的 
应 用 程序 sort 经 过 一 个 C 语言 到 X86 的 编译 器 之 后 ,生成 用 X86 机 器 目标 代码 表示 的 可 
执行 程序 sort, 其 中 编译 器 是 一 个 X86 机 器 的 可 执行 程序 。 右 边 部 分 表示 可 执行 程序 sort 
运行 于 X86 机 器 。 这 个 过 程 描述 了 大 多 数 使 用 PC 应 用 程序 的 开发 和 运行 情况 。 

图 12. 8 表示 应 用 程序 sort 的 交叉 编译 和 和 运行。 左边 部 分 表示 编译 过 程 ,用 C 语言 
编写 的 应 用 程序 sort 经 过 一 个 C 语言 到 PPC 机 器 的 编译 器 之 后 ,生成 用 PPC 机 器 目标 
代码 表示 的 可 执行 程序 sort, 其 中 编译 器 是 一 个 X86 机 器 的 可 执行 程序 。 右 边 部 分 表示 
可 执行 程序 sort 运行 于 PPC 机 器 。 这 个 过 程 描述 了 大 多 数 嵌 入 式 应 用 程序 的 开发 和 运 
行情 况 。 
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sort sort sort 
C C 一 X86 X86 —) X86 
X86 Ls] 
X86 


or 
12.7 TJER: 在 X86 机 器 上 编译 并 运行 C 语言 编写 的 程序 sort 


C C-PPC PPC 


X86 


SS 
图 12.8 全 形 图 : 在 X86 机 器 交叉 编译 C 语言 编写 的 程序 sort 并 在 PPC 机 运行 


图 12. 9 表示 的 是 一 个 编译 器 的 编译 过 程 。 一 个 用 C 语言 实现 的 编译 器 ,其 功能 是 将 
C++ 程序 翻译 为 x86 机 器 目标 代码 ,经 过 一 个 运行 于 
x86 机 器 的 C 语言 到 x86 编译 器 的 编译 之 后 ,得 到 一 
个 可 以 在 x86 机 器 运行 的 编译 可 执行 代码 ,该 编译 器 
程序 实现 C++ 到 x86 机 器 目标 代码 的 转换 。 这 里 编译 
器 的 编译 是 在 x86 机 器 上 , 即 build 为 x86( 图 12. 9 中 E] 
间 部 分 ) ,编译 之 后 的 C++ 编译 器 运行 环境 也 是 x86 机 
器 (图 12.9 右边 工 的 下 部 ), 则 host 为 x86 ,而 C++ 编 
译 器 生成 的 代码 运行 于 x86 机 器 (图 12.9 右边 工 的 右 
部 ) ,表明 target 是 x86 。 

对 于 GCC 而 言 ,build host 和 target 可 以 分 别 为 3 个 不 同 的 体系 结构 。 例 如 ,我 们 准 
备 在 x86 机 器 上 编译 生成 一 个 运行 于 PowerPC 平台 的 编译 器 ,这 个 编译 器 的 功能 是 为 
MIPS 体系 结构 生成 可 执行 代码 ,这 种 情况 下 build 平台 是 x86, host 平台 是 PowePC ,而 
target 平台 是 MIPS。 这 种 交叉 能 力 一 方面 方便 了 增加 对 新 后 端的 支持 , 另 一 方面 则 是 对 和 嵌 
人 式 领 域 的 重要 支持 ,很 多 财 和 人 式 芯片 能 力 很 弱 , 无 法 提供 编译 器 运行 环境 ,这 就 需要 使 用 
基于 x86 的 PC 作为 宿主 机 为 该 芯片 编译 可 执行 代码 。 

有 了 这 些 概念 ,下 面 进入 build 目录 开始 进行 配置 ,一 个 简单 配置 方案 如 下 : 


C++ 一 X86 C++ 一 X86 


C C>X86 X86 
X86 


图 12.9 THA: X86 机 器 编译 C 
语言 编写 的 C++ 编译 器 


cd build/ 
.. /sre/configure -v 一 enable-languages 一 c 
一 prefix 一 /home/backup/gcc-4. 8. 4/usr —build=i686-linux-gnu 


--host=i686-linux-gnu —-target=i686-linux-gnu 
这 里 ,指定 支持 的 语言 为 C 语言 ,构建 环境 .运行 环境 和 目标 环境 均 为 i686, 表 示 将 在 
i686 环境 下 编译 整个 编译 器 ,编译 完成 之 后 ,将 得 到 一 个 C 语言 编译 器 ,该 编译 器 可 以 在 
i686 平台 运行 并 为 :1686 平台 生成 可 执行 代码 。 
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需要 注意 的 一 点 是 这 里 专门 设置 了 prefix 参数 ,这 个 参数 采用 绝对 路 径 方式 指定 未 来 
编译 软件 的 安装 位 置 , 之 后 使 用 该 编译 器 需要 指定 其 路 径 。 如 果 使 用 默认 参数 , 则 很 可 能 会 
和 系统 中 已 安装 的 编译 器 冲突 。 


12.3.1.2 编译 安装 


GCC 采用 make 工具 来 解决 文件 之 间 的 依赖 关系 ,管理 整个 软件 的 编译 和 安装 ,相关 的 
内 容 记录 在 Makefile 文件 中 。 上 面 的 配置 正常 完成 之 后 将 生成 相应 Makefile, 整 个 编译 和 
安装 过 程 非 常 简单 ,只 需要 运行 下 面 的 几 个 make 命令 即 可 。 我 们 需要 做 的 事情 就 是 等 待 ， 
当然 ,如 果 能 利用 这 段 等 待 时 间 看 一 下 Makefile 的 规则 将 会 非常 有 用 ,大 多 数 UNIX/ 
Linux 系统 中 的 软件 都 是 采用 make 来 管理 编译 过 程 的 ,而 Windows 下 图 形 化 的 集成 开发 
环境 也 通常 采用 类 似 的 方案 解决 文件 的 依赖 关系 。 编 译 和 安装 gcc 采用 的 命令 如 下 : 

make all 


make install 


上 面 的 编译 和 安装 正常 结束 之 后 ,在 前 面 prefix 所 指定 的 路 径 中 应 该 看 到 可 以 使 用 的 
GCC 工具 ,通过 下 面 的 命令 可 以 检查 所 安装 的 GCC 的 信息 : 


/home/backup/gec-4. 8. 4/usr/bin/gec -v 


例如 ,得 到 的 输出 如 下 : 


使 用 内 建 specs。 

目标 : i686-linux-gnu 

配置 为 ; ../src/configure -v —enable-languages = c —prefix = /home/backup/gec-4. 8. 4/usr —build = 
i686-linux-gnu --host=i686-linux-gnu —target=i686-linux-gnu 

线程 模型 posix 

gcc 版 本 4. 8.4 (GCC) 


该 信息 给 出 正在 运行 的 GCC 版 本 及 其 编译 配置 参数 ,表明 该 GCC 已 经 可 以 正常 运行 。 
12.3.1.3 实例 介绍 


完成 编译 安装 之 后 ,下 面 通过 实例 简单 了 解 GCC 的 使 用 和 编译 流程 。 采 用 factorial. c 
实例 程序 ,该 程序 计算 并 输出 一 个 以 8 的 阶乘 为 半径 的 圆 的 周 长 : 


# include <stdio. h> 
int main(int argeschar * * argv) 
{ 
float pi=3. 14; 
float ar=0. 0; 
int n=8; 
int r=1; 
while(n>1){ 
r=r* n; 
n=n—1l; 
} 
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ar 一 2# pi*r; 
printf("area= % f\n" ,ar); 
} 
首先 进入 演示 目录 show( 该 目录 位 于 测试 主 目录 gcc-4. 8.4 下 ) ,将 factorial. c 文件 保 
存在 当前 位 置 ,采用 如 下 命令 编译 该 程序 ,其 中 一 save-temps 表示 保存 编译 过 程 中 产生 的 关 
键 临 时 文件 ,-o fact] 指定 生成 的 可 执行 文件 为 factl 。 


. . /usr/bin/gcc —save-temps -o factl factorial. c 


编译 正常 结束 之 后 ,将 得 到 文件 factorial. i, factorial. s, factorial. o 和 fact] ,分 别 为 预 处 
理 的 结果 文件 、 编 译 产生 的 汇编 文件 .汇编 生成 的 可 重 定位 目标 文件 和 可 执行 目标 文件 。 这 
时 ,就 可 以 运行 该 可 执行 文件 ,得 到 期 望 的 结果 : 


. /factl 


12.3.2 查看 目标 文件 


可 以 使 用 1dd 工具 列 出 可 执行 文件 在 运行 时 需要 的 共享 库 。 采 用 这 个 工具 来 检查 刚刚 
编译 生成 的 可 执行 文件 factl ,输入 的 命令 为 


ldd factl 


将 会 得 到 类 似 于 下 面 的 结果 ,该 结果 表明 ,这 个 factl 文件 是 动态 链接 而 生成 的 ,该 文件 在 
运行 过 程 中 将 会 调用 以 下 3 个 库 中 的 内 容 , 其 中 三 二 左边 表示 该 文件 中 使 用 到 的 动态 库 , 右 
边 表示 该 库 在 内 存 中 位 置 。 

linux-gate. so. 1 => (0xb7fe9000) 

libc. so. 6 => /lib/tls/i686/cmov/libe. so. 6 (0xb7e59000) 

/lib/ld-linux. so. 2 (0xb7fcf000) 

实际 上 ,在 前 面 的 编译 过 程 中 ,没有 通过 编译 选项 指定 链接 类 型 ,gcc 会 使 用 默认 的 动 
态 链 接 方式 。 如 果 希 望 进行 静态 链接 , 则 需要 通过 增加 -static 选项 来 指定 ,编译 命令 为 


.. [usr/bin/gcc --save-temps -static -o fact2 factorial. c 


同样 地 ,下 面 将 会 进行 预 处 理 \ 编 译 、 汇 编 和 链接 ,和 前 面 不 同 的 是 ,在 最 后 一 步 链 接 过 
程 中 ,将 采取 静态 链接 方式 ,生成 一 个 不 再 包含 任何 动态 库 的 单一 映像 的 可 执行 目标 文件 
fact2。 这 时 候 采 用 ldd 来 观察 这 个 可 执行 文件 ,将 得 到 如 下 结果 ,表明 该 文件 为 非 动态 可 执 
Tit. 


not a dynamic executable 


一 个 重要 的 目标 文件 工具 是 readelf, 用 于 显示 一 个 目标 文件 的 完整 结构 ,包括 ELF 头 
中 编码 的 所 有 信息 。 采 用 这 个 工具 可 以 观察 各 种 类 型 的 ELF 格式 目标 文件 。 下 面 分 别 给 
出 采用 该 工具 观察 可 重 定位 目标 文件 factorial. o 和 动态 链接 可 执行 文件 fact] 的 EFL 文件 
头 的 结果 。 执 行 的 命令 为 

readelf -h factorial. o 
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readelf -h fact] 


可 以 看 出 ,其 中 最 明显 的 差异 是 入口 点 地 址 ,factorial. o 文件 的 类 型 为 可 重 定位 目标 文 
件 , 其 入口 点 地 址 为 0x0; 而 factl 的 类 型 为 可 执行 目标 文件 ,具有 固定 的 入 口 点 地 址 ,这 里 
是 0x80482d0。 

可 重 定位 目标 文件 factorial. o 的 ELF 头 信 息 如 下 : 


Start of program headers: 
Start of section headers: 
Flags: 

Size of this header: 

Size of program headers: 
Number of program headers: 
Size of section headers: 


Number of section headers: 


ELF Header: 
Magic: 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00 
Class: ELF32 
Data: 2's complement, little endian 
Version: 1 (current) 
OS/ABI: UNIX - System V 
ABI Version: 0 
Type: REL (Relocatable file) 
Machine: Intel 80386 
Version: Oxl 
Entry point address: 0x0 


0 (bytes into file) 
284 (bytes into file) 
0x0 

52 (bytes) 

0 (bytes) 

0 

40 (bytes) 

11 


可 执行 目标 文件 factl 的 ELF 头 信息 如 下 : 


ELF Header: 


Magic: 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00 


Class: 

Data; 

Version; 

OS/ABI; 

ABI Version; 

Type: 

Machine; 

Version: 

Entry point address; 
Start of program headers: 
Start of section headers: 
Flags: 

Size of this header; 

Size of program headers: 
Number of program headers: 


Size of section headers: 
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ELF32 

2's complement, little endian 
1 (current) 

UNIX - System V 

0 

EXEC (Executable file) 
Intel 80386 

Oxl 

0x80482d0 

52 (bytes into file) 
3208 (bytes into file) 
0x0 

52 (bytes) 

32 (bytes) 

? 

40 (bytes) 


Number of section headers: 35 


Section header string table index: 32 


12.3.3 程序 代码 优化 


本 节 通 过 factorial. c 实例 来 简单 了 解 GCC 的 优化 情况 。 一 般 来 说 ,GCC 的 优化 包含 
O0 一 03 共 4 个 主要 优化 级 别 , 其 中 OO 表示 不 优化 ,数字 越 大 代表 实施 的 优化 越 多 ,此 外 还 
有 Os 和 Ofast 两 个 级 别 , 前 者 在 02 的 基础 上 针对 代码 体积 进行 优化 ,后 者 则 表示 最 大 限 
度 地 开展 优化 (有 些 情况 下 甚至 可 能 影响 正确 性 ) 。 

首先 在 展示 目录 show 之 下 建立 目录 ,分 别 采 用 不 同 的 编译 选项 编译 并 存放 在 以 优化 
级 别 命名 的 目录 中 ,下 面 逐 个 观察 其 输出 的 汇编 文件 结果 。 

mkdir O0 


cd O0 
.. /. . [usr/bin/gcc 一 save-temps -O0 -o factO0 .. /factorial. c 


采用 上 述 命令 ,得 到 OO 选项 的 结果 factorial. s(X86 汇编 文件 ) 如 下 : 


1 file "factorial. c" 
2 . section . rodata 
3 .LC2: 
4 string "area= %f\n" 
5 . text 
6 .globl main 
7 .type main, @function 
8 main; 
9 .LFBO: 
10 . cfi_startproc 
11 pushl %ebp 
12 . cfi_def_cfa_offset 8 
13 . cfi_offset 5, —8 
14 movl Wesp, % ebp 
15 . cfi_def_cfa_register 5 
16 andl $ 一 16，%esp 
17 subl $32, Yesp 
18 movl .LC0, %eax 
19 movl eax, 20( %esp) 
20 movl .LC1, %eax 
21 movl %eax, 16(% esp) 
22 movl $8, 28(% esp) 
23 movl $1, 24(%esp) 
24 jmp. L2 
25 .L3: 
26 movl 24(%esp), %eax 
27 imull 28(%esp), % eax 
28 movl %eax, 24(%esp) 
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29 subl $1, 28(%esp) 


30 .L2: 

31 cmpl $1, 28(%esp) 
32 jg ska: 

33 flds 20(% esp) 

34 fld %st(0) 

35 faddp %st, %st(1) 

36 fildl 24(%esp) 

37 fmulp %st, %st(1) 

38 fstps 16(%esp) 

39 flds 16( %esp) 

40 fstpl 4(%esp) 

41 movl $.LC2, (%esp) 
42 call printf 

43 leave 

44 . cfi_restore 5 

45 . cfi_def_cfa 4, 4 

46 ret 

47 . cfi_endproc 

48 .LFEO: 

49 . size main, . 一 main 
50 . section . rodata 

51 „align 4 

52 .LCo: 

53 . long 1078523331 

54 „align 4 

55 .LCl; 

56 . long 0 

57 . ident "GCC: (GNU) 4.8. 4" 
58 . section . note. GNU— stack, "" ,@ progbits 


整个 文件 共 58 行 ,其 中 . rodata 用 以 存放 只 读数 据 ,. text 包含 可 执行 代码 ,. note 是 一 
些 标识 。 下 面 着 重 来 看 . text 节 , 其 中 第 8 行 的 main 函数 对 应 源 代码 中 的 入 口 函 数 main. 
首先 进行 函数 调用 栈 相关 的 操作 ,之 后 对 变量 pi 和 ar 进行 赋值 ,接着 在 22 行 开始 进行 计 
算 ,22 行 和 23 行 分 别 将 常数 8 和 1 放 入 内 存单 元 ,之 后 开始 循环 进行 阶乘 计算 ,循环 体 代 
码 位 于 25 一 29 行 ,30 行 和 31 行 是 循环 控制 判断 ,之 后 计算 面积 并 于 42 行 处 调用 printf 进 
行 输出 ,最 后 是 函数 结束 前 的 一 些 清理 工作 。 可 以 看 出 ,不 进行 优化 的 情况 下 , 源 代码 和 汇 
编 代码 的 对 应 关系 非常 明确 。 

建立 一 个 新 的 目录 ,采用 O2 优化 选项 进行 编译 ,执行 的 命令 如 下 : 

mkdir O2 

cd 02 


.. /. . [usr/bin/gcc —save-temps -02 -o factO2 . . /factorial. c 


编译 之 后 的 结果 (X86 汇编 文件 ) 如 下 : 
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.file "factorial. c" 
„section .rodata. strl. 1,"aMS",@progbits,1 
. LC1: 


string  "area= %f\n" 
section .text. startup, "ax", @ progbits 


.Pp2align 4,,15 
. globl main 


. type main, @ function 
main; 
.LFB11: 

. cfi_startproc 

movl $1, %edx 

movl $8, “eax 


. p2align 4,,7 


.p2align 3 

L3: 
imull eax, %edx 
subl $1, eax 
cmpl $1, “eax 
jne L3 


pushl %ebp 
.cfi_def_cfa_offset 8 
. cfi_offset 5, —8 


movl Wesp, %ebp 

. cfi_def_cfa_register 5 

andl $ 一 16，%esp 
subl $16, %esp 
movl Wedx, 12( %esp) 
fildl 12(% esp) 

fmuls .LCO 

movl $.LC1, (%esp) 
fstpl 4(%esp) 

call printf 

leave 


. cfi_restore 5 
. cfi_def_cfa 4, 4 


ret 
. cfi_endproc 
. LFE11: 
. size main, . 一 main 


„section . rodata. cst4,"aM",@progbits,4 


„align 4 
.LCO: 
„long 1086911939 
.ident "GCC: (GNU) 4.8.4" 
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46 „section . note. GNU 一 stack,"",@progbits 


整个 文件 46 行 ,长 度 比 00 的 结果 略 有 减少 。 下 面 对 其 做 简单 分 析 ,文件 包 含 了 4 个 
节 , 用 . section 作为 标记 ,除了 存放 只 读 字符 串 和 常量 数据 的 . rodata、 存 放 可 执行 代码 的 . 
text 和 存放 标识 的 . note 之 外 ,增加 了 一 个 存放 常数 的 . rodata ,该 节 位 于 第 44 行 。 仔 细 看 
代码 的 变化 ,我 们 可 以 发 现 ,这 个 常数 用 来 代替 源 代码 中 和 pi 有 关 的 赋值 和 运算 ,也 就 是 
说 ,通过 编译 阶段 的 常量 传播 和 合并 已 知 量 等 优化 方法 ,利用 这 个 常数 代替 了 00 版 本 中 的 
某 些 计 算 。 汇 编 代码 中 第 9 行 的 main 函数 对 应 源 代码 中 的 入 口 函 数 main, 首 先 还 是 进行 
函数 调用 栈 相关 的 操作 ,之 后 在 16 一 20 行 循环 进行 阶乘 计算 ,之 后 计算 面积 并 于 33 行 处 调 
用 printf 进行 输出 ,最 后 也 是 函数 结束 前 的 一 些 清 理工 作 。 

再 次 创建 新 的 目录 ,采用 O3 优化 选项 进行 编译 ,执行 的 命令 如 下 

mkdir O3 


ed 03 
../../usr/bin/gee —save-temps -03 -o factO3 .. /factorial. c 


编译 之 后 的 X86 汇编 文件 如 下 : 


1 .file "factorial. c" 
2 .section .rodata. strl. 1,"aMS", @progbits,1 
3 .LCl; 
4 . string "area= %f\n" 
5 „section „text, startup, "ax" ,@progbits 
6 . p2align 4,,15 
7 .globl main 
8 . type main, @function 
9 main: 
10 .LFB11: 
11 . cfi_startproc 
12 pushl %ebp 
13 . cfi_def_cfa_offset 8 
14 . cfi_offset 5, —8 
15 movl Wesp, Yebp 
16 . cfi_def_cfa_register 5 
17 andl $—16, %esp 
18 subl $16, %esp 
19 flds .LCO 
20 fstpl 4(% esp) 
21 movl $.LC1, (%esp) 
22 call printf 
23 leave 
24 . cfi_restore 5 
25 . cfi_def_cfa 4, 4 
26 ret 
27 . cfi_endproc 
28 .LFE11: 


29 «size main, . 一 main 


30 „section . rodata. cst4,"aM", @progbits,4 
31 „align 4 

32 .LCO: 

33 . long 1215776359 

34 . ident "GCC; (GNU) 4.8.4" 

35 „section . note. GNU—stack,"",@progbits 


这 时 整个 文件 只 剩 下 35 行 ,长 度 比 00 的 结果 减少 近 50% ,而 计算 时 间 应 当 缩 短 更 多 。 
下 面 对 其 进行 分 析 , 文 件 还 是 只 有 4 个 节 ,为 存放 只 读 字 符 串 和 常量 数据 的 . rodata、 存 放 可 
执行 代码 的 . text 和 存放 标识 的 . note。 再 来 看 代码 的 变化 ,可 以 发 现 ,整个 程序 中 没有 循 
环 , 没 有 和 源 代 码 对 应 的 赋值 ,乘法 运行 ,有 的 只 是 在 第 22 行 调 用 printf 输出 一 个 常数 。 也 
就 是 说 ,通过 编译 阶段 的 静态 计算 优化 ,利用 这 个 常数 代 蔡 了 O0 版 本 中 的 所 有 相关 的 赋值 
和 循环 计算 ,而 其 中 的 循环 计算 恰恰 可 能 是 整个 程序 中 最 耗 时 的 部 分 。 因 此 ,可 以 相信 ,O3 
优化 之 后 的 这 段 代码 运行 速度 将 会 大 大 加 快 ,但 是 带 来 的 问题 是 ,在 优化 之 后 的 汇编 代码 中 
再 也 看 不 到 源 代码 中 阶乘 计算 相关 代码 的 任何 蛛丝马迹 。 


12.3.4 小 结 


本 节 通 过 一 些 实例 介绍 GCC 编译 器 和 Binutils 工具 的 使 用 。 二 者 都 是 构成 Linux/ 
UNIX 系统 标准 的 开发 .调试 环境 的 核心 软件 。 熟 悉 和 深入 了 解 这 些 工 具 , 对 于 理解 编译 器 
的 基本 原理 和 构造 技术 ,以 及 利用 这 些 工具 高 效率 地 开发 应 用 程序 ,都 会 有 所 帮助 。 
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1. 自行 建立 开发 环境 ,根据 本 章 内 容 , 参 考 网 上 公开 资料 ,下 载 源 代码 并 编译 安装 最 新 
版 本 的 GCC, 

2. 利用 题 1 中 完成 的 工具 ,编译 factorial. c 程序 并 观察 其 中 间 结 果 和 目标 文件 内 容 。 

3. 利用 nm, size 等 其 他 工具 观察 12. 3. 2 节 中 的 可 执行 文件 factl 和 fact2 。 

4. 自己 编写 一 个 函数 void swap(int asint b) ,用 于 交换 a A b 的 值 ,利用 gec 和 ar 创 
建 一 个 静态 库 , 并 练 写 插入 、 删 除 、 列 出 和 提取 成 员 。 

5. 采用 Os 和 Ofast X factorial. ¢ 生成 汇编 代码 ,比较 其 差别 。 

6. 寻找 或 者 编写 一 个 规模 较 大 的 C 语言 程序 ,利用 GCC 编译 并 运行 ,测试 不 同 优化 选 
项 对 编译 时 间 、 生 成 代码 尺寸 以 及 生成 代码 运行 时 间 的 影响 ,给 出 图 形 表示 并 分 析 其 原因 。 

7. 为 ARM 体系 结构 构造 一 个 交叉 编译 工具 ,宿主 机 为 X86。 
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附录 A ”PL/ 0 编译 程序 文本 


A.1 Pascal 版 本 


program pl0(fa, fal, fa2) ; 
( * PLO compiler with code generation * ) 


label 99; 
const norw=13; ( * of reserved words * ) 
txmax= 100; ( * length of identifier table * ) 
nmax= 14; ( * max number of digits in numbers * ) 
al 一 10; ( * length of identifiers * ) 
amax= 2047; ( * maximum address * ) 
levmax 一 3; ( * max depth of block nesting * ) 
exmax= 200; ( * size of code array * ) 
type symbol=(nul,ident,number, plus, minus, times,slash,oddsym, 


var 


354 


eql, neq, lss, leq, gtr, geq, paren, rparen,comma, 
semicolon, period, becomes, beginsym,endsym,ifsym, 
thensym, whilesym. writesym, readsym,dosym,callsym, 
constsym, varsym, procsym) ; 
alfa= packed array[1.. al] of char; 
object= (constant, variable, procedur) ; 
( * wirth used the word "procedure” there, which won't work! * ) 
symset=set of symbol; 
fet=( lit,opr,lod,sto,cal,int,jmpsjpc) + 
instruction= packed record 
f:fets ( * function code * ) 
1:0..levmax; ( * level * ) 
a:0..amax; ( * displacement addr * ) 
end; 
(x lit 0,a load constant a 
opr 0,a execute opr a 
lod l,a load variable l,a 
sto l,a store variable l,a 
cal l,a call procedure a at level | 
int 0,a increment t-register by a 
jmp 0,a jump toa 
jpc 0,a jump conditional to a * ) 
fa:text; 
fal ,fa2 :text 
listswitch: boolean; ( * true set list object code * ) 


ch: char; ( * last char read * ) 
sym: symbol; (* last symbol read * ) 
id:alfa; ( * last identifier read * ) 
num: integer; ( * last number read * ) 
cc: integers ( * character count * ) 
ll:integer; ( * line length * ) 


kk: integer; 


cx:integer; ( * code allocation index * ) 
line:arrayL1. . 81] of char; 
azalfa; 


code;array0.. cxmax] of instruction; 
word; array[1.. norw] of alfa; 
wsym:array[1. . norw] of symbol; 
ssym;array[''. .'^] of symbol; 

( * wirth uses "arrar[char]" here * ) 
mnemonic: array|fct] of packed array[1. .5] of char; 
declbegsys, statbegsys, facbegsys:symset; 
table: arrayL0. . txmax] of record 

name:alfa; 
case kind; object of 
constant: (val; integer) ; 
variable, procedur; (level, adr, size; integer) 
(* "size" lacking in original. I think it belongs here * ) 
end; 
fin, fout: text; 
fname; alfa; 
err; integer; 
procedure error(n; integer) ; 
begin 
writeln('* * * *',"':cco—1,"l'm:2)5 
writeln(fal,'* * * *',"':cc—1,"I',n:2); 
err :一 err 十 1 
end ( * error * ); 
procedure getsym; 
var i,j,k:integer; 
procedure getch; 
begin 
if cc=1l 
then 
begin 
if eof(fin) 
then 
begin 
write( ‘program incomplete’) ; 
goto 99 
end; 
ll :一 0 
cc *=0; 
write(cx:4,'; 
write(fal,cx:4,'); 
while not eoln(fin) do 


begin 
l :一 1 十 1; 
read(fin,ch) ; 


write(ch) ; 
write(fal,ch) ; 
line[ll] :一 ch 


end; 
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writeln; 
ll:=I1+1; 
read (fin, line[ Il] ; 
writeln( fal) ; 
end; 
cc :一 cc 十 1; 
ch :一 line[cc] 
end ( * getch * ); 
begin ( * getsym * ) 
while ch='' do getch; 
if ch in [a' .中 


then 
begin ( * id or reserved word * ) 
k :一 0; 
repeat 
if k<al 
then 
begin 
k :一 k 十 1; 
alk] :=ch 
end; 
getch 
until not(ch in ['a' . 2's... 9") 5 
if k>=kk 
then kk *=k 
else 
repeat 
a{kk] ="; 
kk :一 kk 一 1 
until kk=k; 
id :一 ay 
it=1; 
j *=norw; 
repeat 
k :一 (i 十 ji) div 2; 
if id 一 一 word[k] 
then j :一 k 一 1; 
if id >= word[k] 
then i: 一 k 十 1 
until i>j; 
ifi-1>j 
then sym *=wsym[k] 
else sym :一 ident 
end 
else 
if ch in [0 . 91] 
then 
begin ( * number * ) 
k :一 0; 
num :一 0; 


sym *=number; 
repeat 
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num :一 10* num 十 (ord(ch) 一 ord(07); 


k:=k+1; 
getch 
until not(ch in [0. . 9); 
if k>nmax 
then error(30) 
end 
else 
if ch 一 ':" 
then 
begin 
getch; 
if ch='="' 
then 
begin 
sym *= becomes; 
getch 
end 
else sym *=nul; 
end 
else 
if ch 一 <' 
then 
begin 
getch; 
if ch='=' 
then 
begin 
sym :一 leq; 
getch 
end 
else sym :一 lss 
end 
else 
if ch=>' 
then 
begin 
getch; 
if ch='=' 
then 
begin 
sym :=geq; 
getch 
end 
else sym :一 gtr 
end 
else 
begin 
sym :=ssym[ ch]; 
getch 
end 
end ( * getsym * ); 
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procedure gen(x:fct;y,z:integer); 
begin 
if cx>cxmax 
then 
begin 
write('program too long’ ; 
goto 99 
end; 
with code[cx] do 
begin 


= 
timy 
end; 
ex ?=cex+1 
end ( * gen * ); 
procedure test(sl,s2:symset;n: integer) ; 


begin 
if not(sym in sl) 

then 

begin 
error(n) ; 
sl *=sl+s2; 
while not(sym in s1) do getsym 

end 


end( * test * ); 
procedure block(lev, tx; integer; fsys:symset) ; 
var dx: integer; ( * data allocation index * ) 
txO;:integer; ( * initial table index * ) 
cx0:integer; ( * initial code index * ) 
procedure enter(k; object) ; 
begin ( * enter object into table * ) 
txt=txt+1; 
with table[ tx] do 
begin 
name :一 id; 
kind :一 k; 
case k of 
constant; begin 
if num>amax 
then 
begin 
error(31); 
num :一 0; 
end; 
val ?=num 
end; 
variable; begin 
level :=lev; 


adr :一 dx; 
dx :一 dx 十 1; 
end; 
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procedur: level := lev 
end 
end 
end( * enter * ); 
function position(id:alfa) :integer; 
var i:integer; 
begin ( * find identifier in table * ) 
table[0]. name :一 id; 
i*=tx; 
while table[i]. name<>id do i :一 一 1; 
position *=i 
end( * position * ); 
procedure constdeclaration; 
begin 
if sym=ident 
then 


begin 
getsym; 
if sym in [eql, becomes] 
then 
begin 
if sym= becomes 
then error(1); 
getsym; 
if sym= number 
then 
begin 
enter(constant) ; 
getsym 
end 
else error(2) 
end 
else error(3) 
end 
else error(4) 
end;(* constdeclaration * ) 
procedure vardeclaration; 
begin 
if sym=ident 
then 
begin 
enter( variable) ; 
getsym 
end 
else error(4) 
end( * vardeclaration * ) ; 
procedure listcode; 
var i;integer; 
begin ( * list code generated for this block * ) 
if listswitch 
then 
begin 
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for i :一 cx0 to cx 一 1 do 
with code[i] do 
begin 
writeln(i,mnemonic[f]:5,1:3,a:5) 5 
writeln(fa,i:4,mnemonic[f]:5,1:3,a:5) 
end; 
end 
end( * listcode * ); 
procedure statement(fsys;symset) ; 
var i,cxl,cx2;integer; 
procedure expression(fsys: symset) ; 
var addop: symbol; 
procedure term(fsys:symset) + 
var mulop; symbol; 
procedure factor(fsys:symset) ; 
var i;integer; 
begin 
test(facbegsyss {sys,24); 
while sym in facbegsys do 
begin 
if sym=ident 
then 
begin 
i *=position(id) 5 
if i=0 
then error(11) 
else 
with table[i] do 
case kind of 
constant: gen(lit,0.val) 5 
variable; gen(lod, lev-level, adr) ; 
procedur; error(21) 
end; 
getsym 
end 
else 
if sym=number 
then 
begin 
if num>amax 
then 
begin 
error(31); 
num :一 0 
end; 
gen(lit.0,num) ; 
getsym 
end 
else 
if sym=lIparen 
then 
begin 
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getsym; 
expression([rparen]+fsys) ; 
if sym=rparen 
then getsym 
else error(22) 
end; 
test(fsys, facbegsys,23) 
end 
end( * factor * ); 
begin( * term * ) 
factor([times, slash]+ fsys) ; 
while sym in [times,slash] do 
begin 
mulop :一 symy 
getsym; 
factor(fsyst+[times, slash ]) ; 
if mulop= times 
then gen(opr,0,4) 
else gen(opr,0,5) 
end 
end( * term * ); 
begin( * expression * ) 
if sym in [plus, minus] 
then 
begin 
addop *=sym; 
getsym; 
term(fsys+[plus, minus ]) 
if addop= minus 
then gen(opr,0,1) 
end 
else term(fsys+[plus,minus ]) ; 
while sym in [plus,minus] do 
begin 
addop :一 symy 
getsym; 
term(fsys+[plus, minus ]}) ; 
if addop= plus 
then gen(opr,0,2) 
else gen(opr,0,3) 
end 
end( * expression * ); 
procedure condition(fsys:symset) ; 
var relop: symbol; 
begin 
if sym=oddsym 
then 
begin 
getsym; 
expression(fsys) ; 
gen(opr,0,6) 
end 
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else 
begin 
expression([eql,neq,lss,leq,gtr,geq] 十 fsys); 
if not(sym in [eql,neq,lss,leq,gtr,geq]) 
then error(20) 
else 
begin 
relop :一 symy 
getsym; 
expression(fsys) ; 
case relop of 
eql: gen(opr,0,8); 
neq:gen(opr,0,9); 
Iss: gen(opr,0,10); 
geq:gen(opr,0,11); 
gtr:gen(opr,0,12); 
leq: gen(opr,0,13) 5 
end 
end 
end 
end( * condition * ); 
begin( * statement * ) 
if sym= ident 
then 
begin 
i *=position(id) ; 
if i=0 
then error(11) 
else 
if table[i]. kind<>variable 
then 
begin 
error(12); 
i:=0 
end; 
getsym; 
if sym= becomes 
then getsym 
else error(13); 
expression(fsys) ; 
if i<>0 
then 
with table[i] do gen(sto,lev-level, adr) 
end 
else 
if sym=readsym 
then 
begin 
getsym; 
if sym<>lparen 
then error(34) 
else 
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Tepeat 
getsym; 
if sym=ident 
then i *=position(id) 


else i 
if i=0 
then error(35) 
else 
with table[i] do 
begin 
gen(opr,0,16); 
gen(sto,lev-level,adr) 
end; 
getsym 
until sym<œ> comma; 
if sym<>rparen 
then 


begin 
error(33); 
while not(sym in fsys) do getsym 
end 
else getsym 
end 
else 
if sym= writesym 
then 
begin 
getsym; 
if sym=lparen 
then 
begin 
repeat 
getsym; 
expression(Lrparen,comma]+fsys) ; 
gen(opr,0,14) 
until sym<> comma; 
if sym<>rparen 
then error(33) 
else getsym 
end; 
gen(opr,0,15) 
end 
else 
if sym=callsym 
then 
begin 
getsym; 
if sym<> ident 
then error(14) 
else 
begin 
i *=position(id) ; 
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if i=0 
then error(11) 
else 
with table[i] do 
if kind= procedur 
then gen(cal, lev-level, adr) 
else error(15); 
getsym 
end 
end 
else 
if sym=ifsym 
then 
begin 
getsym; 
condition([thensym,dosym]+ fsys) ; 
if sym=thensym 
then getsym 
else error(16); 
exl *=cx; 
gen(jpc,0,0); 
statement(fsys) ; 
code[cxl]. a :一 cx 
end 
else 
if sym=beginsym 
then 
begin 
getsym; 


statement([ semicolon, endsym]+fsys) ; 
while sym in [semicolon]+statbegsys do 


begin 
if sym= semicolon 
then getsym 
else error(10) ; 


statement([ semicolon, endsym]+fsys) 


end; 

if sym=endsym 
then getsym 
else error(17) 


end 
else 
if sym=whilesym 
then 
begin 

cxl *=cx; 
getsym; 
condition([dosym]+fsys) ; 
cx2 *=cx; 


gen(jpc,0,0); 
if sym=dosym 
then getsym 
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else error(18); 
statement(fsys); 


gen(jmp,0,cxl); 
code[cx2]. a :一 cx 
end; 


test(fsys,[],19) 

end ( * statement * ); 
begin ( * block * ) 

dx :一 3; 
tx0 :一 tx 
table[ tx]. adr :一 cxs 
gen(jmp,0,0); 
if lev>levmax 

then error(32); 
repeat 


if sym=constsym 
then 
begin 
getsym; 
repeat 
constdeclaration; 
while sym=comma do 
begin 
getsym; 
constdeclaration 
end; 
if sym= semicolon 
then getsym 
else error(5) 
until sym<> ident 
end; 
if sym=varsym 
then 
begin 
getsym; 
repeat 
vardeclaration; 
while sym=comma do 
begin 
getsym; 
vardeclaration 
end; 
if sym= semicolon 
then getsym 
else error(5) 
until sym<>ident; 


end; 
while sym= procsym do 
begin 
getsym; 
if sym 一 ident 
then 
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begin 
enter(procedur) ; 
getsym 
end 
else error(4); 
if sym= semicolon 
then getsym 
else error(5); 
block(lev+1,tx,[semicolon]+ fsys) ; 
if sym= semicolon 
then 
begin 
getsym; 
test(statbegsys+[ident, procsym],fsys,6); 
end 
else error(5) 
end; 
test(statbegsys 十 [ident] ,declbegsys,7) 
until not(sym in declbegsys) ; 
code[table[tx0]. adr]. a :一 cx; 
with table[tx0] do 
begin 
adr *=cx3 
size *=dx; 
end; 
cx0 *=cx; 
gen(int,0,dx); 
statement([ semicolon, endsym]+fsys) ; 
gen(opr,0,0); 
test(fsys,[],8); 
listcode 
end ( * block * ); 
procedure interpret; 
const stacksize= 5003 
var p»bst:integer; ( * program base topstack registers * ) 
i:instruction; 
s:array[1. . stacksize] of integer; ( * datastore * ) 
function base(1; integer): integer; 
var bl; integer; 
begin 
bl :=b; ( * find base | level down * ) 
while 1>0 do 
begin 
bl 


=s[bl]; 


1 
end; 
base :一 bl 
end ( * basex ); 
begin 


writeln('start pl0'); 

t:=0; b :一 1; p :一 0; 

s[1] :=0; s[2] :=0; s[3] :=0; 
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repeat 


p :一 p 十 1; 

with i do 

case f of 
lit: begin 


opr: case a of ( * operator * ) 
0: begin ( * return * ) 


:一 s[t 十 2] 
end; 
1; s(t] *=—s[t]; 
2: begin 
ts 一 t 一 1 
s[t] +=s[t]+s[t+1] 
end; 
3: begin 
t: 一 t 一 1; 
s(t] *=s(t]—s[t+1] 
end; 
4; begin 
tt=t-l; 
s(t] :=s[t] * s[t+1] 
end; 
5: begin 
tt=t-1; 
s(t] :=s[t] div s[t+1] 
end; 
6: s(t] *=ord(odd(s[t])); 
8: begin 
tt=t-1; 
s(t] *=ord(s[t]=s[t+1]) 
end; 
9: begin 
t'=t-1, 
s[t] *=ord(s[t]<>s[t+1]) 
end; 
10; begin 
tt=t—1; 
s[t] *=ord(s[t]<s[t+1]) 
end; 
11: begin 
teri 
s[t] *=ord(s([t]>=s[t+1]) 
end; 
12; begin 
t=]; 
sLt] *=ord(s[t]>s[t+1]) 
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13: 


ord(s[t]<=s[t+1]) 


14; begin 
write(st]); 
write(fa2,s[t]); 
ts 一 t 一 1 
end; 
15: begin 
writeln; 
writeln(fa2) 
end; 
16; begin 
t: 一 t 十 1; 
write('? 5 
write(fa2."? 
readIn(s[t]) + 
writeln(fa2,s[t]) 
end; 
end; 
lod: begin 
t: 一 t 十 1 
s[t] :一 s[base(D) 十 a] 
end; 
sto; begin 
sLbase(1) +a] :=s[t]; ( * writeln(s[t]) * ) 
t:=t—1 
end; 


cal; begin ( * generat new block mark * ) 


s[t+1] *=base()D; 


s[t 十 2] :=b; 
s[t+3] :=p; 
b:=t+1; 
pi=a 

end; 


int; t :一 t 十 ay 
jmp: p :一 ay 
jpc: begin 
if s[t]=0 
then p :=a; 
timpi 
end; 
end ( * with, case * ) 
until p=0; 
closef(fa2) 
end ( * interpret * ); 
begin ( * main * ) 
for ch :="'to 小 do ssym[ch] :一 nul; 
( * changed because of different character set 
note the typos below in the original where 
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the alfas were not given the correct space * ) 
word[1] :一 begin '; word[2] :='call 


word[3] '; word[4] :一 do 
word[5] '; word[6] :一 竺 

word[7] '; word[8] := 'procedure '; 
word[9] '; word[10] :一 then 
word[11] ';word[ 12] += while 


word[13] 


wsym[10] := thensym; 


ssym[' "] := period; ssym['# '] += neq; 


ssym[';"] := semicolon; 
mnemonic[lit] := "it '; mnemonic[opr] :一 opr 
mnemonic[lod] *=‘lod '; mnemonic[ sto] :一 sto 


mnemonic[jmp] :一 Jymp '; mnemonic[jpc] *=jpe 


declbegsys *=[constsym, varsym, procsym ]; 


statbegsys =[beginsym, callsym, ifsym, whilesym]; 


facbegsys :=[ident, number, lparen]; 
( * page(output) * ) 
rewrite(fal) 5 

write(‘input file? '); 

write(fal, input file? ); 

readln( fname); 

writeln(fal , fname) ; 

openf(fin, fname, 'r') ; 

write(‘list object code ? '); 
readIn( fname) ; 

write(fal ,ist object code ? '); 
listswitch := ({name[1]='y) ; 


err *=0; 
cc *=03 cx :=0; ll :一 0; 
ch :="'; kk ?=al; 


getsym; 
rewrite(fa) ; 
rewrite(fa2) ; 
block(0.0.[ period ]+declbegsys+statbegsys) ; 
closef(fa) ; 
closef(fal) ; 
if sym<> period 
then error(9) ; 
if err 一 0 
then interpret 


wsym[12] := whilesym; 


; mnemonic[int] := int 
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else write(errors in pl/0 program’) ; 
99: 

closef(fin) ; 

writeln 
end. 


A.2 C 版 本 


/* 编译 和 运行 环境 : 
* 1 Visual C ++ 6.0,Visual C ++. NET and Visual C ++. NET 2003 
* WinNT, Win2000, WinXP and Win2003 
* 2 gcc version 3. 3.2 20031022(Red Hat Linux 3. 3. 2-1) 
* Redhat Fedora core 1 
* Intel 32 platform 
* 使 用 方法 : 
* 运行 后 输入 PL/0 源 程序 文件 名 
* 回答 是 否 输出 虚拟 机 代码 
* 回答 是 否 输出 名 字 表 
* fa, tmp 输出 虚拟 机 代码 
* fal. tmp 输出 源 文件 及 其 各 行 对 应 的 首 地 址 
* fa2. tmp 输出 结果 
* fas, tmp 输出 名 字 表 
*/ 
# include <stdio, h> 
# include "pl0. h" 
# include "string. h" 
/* 解释 执行 时 使 用 的 栈 * / 
# define stacksize 500 
int main() 
{ 
bool nxtlevLsymnum ]; 
printf{("Input pl/0 file?") ; 


scanf("%s", fname) ; /* 输 入 文件 名 * / 
fin=fopen(fname,"r") ; 
if Cfin) 
{ 
printf("List object code? (Y/N)"); /* 是否 输出 虚拟 机 代码 * / 


scanf("%s", fname); 
listswitch= (fnamel0]=='y'| | fnamel0]=='Y) ; 
printf("List symbol table? (Y/N)"); /* 是 否 输出 名 字 表 * / 
scanf("%s", fname) ; 
tableswitch= (fnamel0]=='y'| | fnamel0]=='Y ; 
fal=fopen("fal. tmp","w"); 
fprint{(fal,"Input pl/0 file?"); 
fprintf(fal,"%s\n" fname) 5 
init; / * Phat * / 
err=0; 
cc 一 cx 一 ]] 一 0; 
ch="5 
if(—1 !=getsymO) 
{ 
fa=fopen("fa. tmp"+"w"); 
fas=fopen("fas. tmp" ,"w") ; 
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addset(nxtlev,declbegsys,statbegsys,symnum) ; 
nxtlev[ period]= true; 


if(—1==block(0,0,nxtlev)) /* 调用 编译 程序 * / 
{ 

fclose(fa) ; 

fclose(fal); 


fclose(fas); 
felose(fin) ; 
printf("\n"); 
return 0; 
} 
fclose(fa) + 
fclose( fal) 
fclose( fas) ; 
if (sym != period) 
{ 
error(9) ; 
3 
if Cerr==0) 
{ 
fa2=fopen("fa2. tmp","w"); 
interpret() ; /* 调用 解释 执行 程序 * / 
felose(fa2) ; 
} 
else 
{ 
printf( "Errors in pl/0 program"); 
} 
} 
felose(fin) ; 
} 
else 
{ 
printf("Can't open file!\n"); 
} 
printf("\n") ; 
return 0; 
} 
/* 
* 初始 化 
*/ 
void init() 
{ 
int i; 
/* 设 置 单字 符 符 号 * / 
for (i=0; i<=255; i++) 
{ 
ssym[i]= nul; 
} 
ssym('+']=plus; 
ssym['— 
ssym['* ']=times; 
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ssym['/']=slash; 

ssym['(']=Iparen; 
ssym[') 
ssym[" 
ssym[', ]= comma; 
ssym[' 


rparen; 


ssym[';']=semicolon; 

/#* 设 置 保 留 字 名 字 ,按照 字母 顺序 ,便于 折 半 查 找 * / 
strepy(&-(word[0][0]),"begin") ; 
strepy( & (word[1][0]) ," call"); 
strcpy(& (word[2][0]) ," const"); 
strepy(&(word[3 ][0])."do") ; 
strepy(&-(word[4][0]),"end") ; 
strepy(&.(word[5][0]),"if"); 
strepy(&.(word[6][0]),"odd") ; 
strepy( &-(word[7][0]) ," procedure"); 
strepy(&.(word[8][0]),"read") + 
strepy(&.(word[9 ][0]),"then") ; 
strepy(&.(word[10][0]),"var") ; 
strepy(&.(word[11][0]),"while") ; 
strepy(&.(word[12][0]),"write"); 

/* 设 置 保留 字符 号 * / 

wsym[0] 一 beginsymy 

wsym[1]= callsym; 

wsym[2]= constsym; 

wsym[3] 一 dosymy 

wsym[4 ]=endsym; 

wsym[5 ]=ifsym; 

wsym[6 ]=oddsym; 

wsym[7 ]=procsym; 

wsym[8 ]=readsym; 

wsym[9 ]=thensym; 
wsym[10]=varsym; 

wsym[11]= whilesym; 
wsym[12]=writesym; 

/* 设 置 指令 名 称 */ 

strcpy( & (mnemonic[lit][0]) ."lit") ; 
strepy(&.(mnemonic[ opr][0])."opr") ; 
strepy(&.(mnemonic[lod][0]) ,"lod") ; 
strepy(&.(mnemonic[ sto ][0]) ,"sto") s 
strepy(&.(mnemonic[ cal ][0]) ."cal"); 
strepy(&(mnemonic[inte][0]),"int"); 
strepy(&(mnemonic[jmp][0]) ."jmp"); 
strepy(&.(mnemonic[jpe][0]),"jpe") + 
/* 设 置 符 号 集 */ 

for (i=0; i<symnum; i++) 


{ 


declbegsys[i]= false; 
statbegsys[i]= false; 
facbegsys[i] = false; 
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/* 设 置 声 明 开 始 符号 集 * / 
declbegsys[constsym]= true; 
declbegsys[varsym]= true; 
declbegsys[procsym]= true; 
/* 设 置 语句 开始 符号 集 * / 
statbegsys[beginsym] = true; 
statbegsys[callsym]= true; 
statbegsys[ifsym]= true; 
statbegsys[whilesym] = true; 
/* 设 置 因 子 开始 符号 集 * / 
facbegsys[ident]= true; 
facbegsys[ number ]= true; 
facbegsys[lparen]= true; 


} 
/* 
* 用 数组 实现 集合 的 集合 运算 
*/ 
int inset(int e, bool * s) 
{ 
return s[e]; 
} 
int addset(bool * sr,bool * sl,bool* s2,int n) 
{ 
int i; 
for (i=0; i<n; i++) 
{ 


sr[i]=s1[i]l |s2[i]; 
} 
return 0; 
} 
int subset(bool * sr,bool* sl,bool * s2,int n) 
{ 
int i; 
for (i=0; i<n; i++) 
{ 
sr(i]=s1[i]&-&(1s2[i)); 
} 
return 0; 
} 
int mulset(bool * sr,bool * sl,bool* s2,int n) 
{ 
int i; 
for (i=0; i<n; i++) 
{ 
sr[i]=sl[i]& 8s2[i]; 
} 
return 0; 
} 
/* 
* 出 错 处 理 , 打 印 出 错位 置 和 错误 编码 
*/ 


void error(int n) 
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char space[81]; 
memset(space,32,81); 
space[cc 一 1] 二 0; // 出 错时 当前 符号 已 经 读 完 , 所 以 cc 一 1 
Printf(C"xxxx%s1%dNn" ,space,n); 
fprintf(fal ,"****%s!%d\n" ,space,n) 
err t+ ; 

} 

/* 

* 漏 掉 空格 , 读 取 一 个 字符 。 


* 


* 每 次 读 一行 , 存 人 line 缓冲 区 ,line 被 getsym 取 空 后 再 读 一 行 
* 
* 被 函数 getsym 调用 。 
*/ 
int getch() 
{ 
if (cc 一 一 ID) 
{ 
if (feof(fin) ) 
{ 
print{(" program incomplete") ; 
return — l; 
} 
ll=0; 
cc 一 0; 
printf("%d " ,cx); 
fprintf(fal,"%d ",cx); 
ch="55 
while (ch !=10) 
{ 
//fscanfCfin." % c", &ch) 
if (EOF= =fscanf (fin, " %c" , &ch)) 
{ 
line[11]=0; 
break; 
} 
printf{("%c",ch); 
fprintf(fal."%c".ch); 
line[ll]=ch; 
I++; 
} 
printf("\n"); 
fprintf(fal,"\n"); 
} 
ch=line[cc]; 
cett; 


return 0; 
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* 词法 分 析 , 获 取 一 个 符号 
*/ 
int getsym() 
{ 
int i,j,k; 
while (ch=="'||ch==10||ch==9) / x 忽略 空格 ,换行 和 TAB* / 
{ 
getchdo; 
} 
if (ch>='a' && ch<=%) 
{ /* 名 字 或 保留 字 以 a~z 开头 * / 
k=0; 
do { 
if(k<al) 
{ 
a(k]=ch; 
k++; 
} 
getchdo; 
} while (ch>='a' && ch< =7'] |ch>=0' && ch<=9); 
a[k]=0; 
strepy(id,a) ; 
i=0; 
j=norw—1; 
do { / * 搜索 当前 符号 是 否 为 保留 字 * / 
k=(i+j)/2; 
if (stremp(id, word[k]) <=0) 
{ 
j=k-1; 
} 
if (stremp(id, word[k]) >=0) 
{ 
i=k+1; 
} 
} while G <=); 
if GG-1> j) 
{ 
sym=wsym(k]; 
} 
else 
{ 
sym=ident; /* 搜索 失败 , 则 是 名 字 或 数字 * / 
} 
} 
else 
{ 
if (ch>=0' && ch<=9 
{ / * 检测 是 否 为 数字 :以 0 一 9 开头 */ 
k=0; 
num=0; 
sym= number; 
do { 
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num=10 * num+ch—'0'; 


k++; 
getchdo; 


} while (ch>='0' && ch<=9); 


k—-=; 
if (k > nmax) 
{ 
error(30) 

} 

} 

else 

{ 
if (ch 一 
{ 


getchdo; 
if (ch=='=) 
{ 
sym= becomes; 
getchdo; 
} 
else 
{ 
sym= nul; 
} 
} 
else 
{ 
if (Cch= =<) 
{ 
getchdo; 
if (ch=='=9 
{ 
sym= leq; 
getchdo; 
} 
else 
{ 
sym= lss; 
} 
} 
else 
{ 
if (ch==">") 
{ 
getchdo; 
if (ch=='=") 
{ 
sym=geq; 
getchdo; 
} 
else 


{ 


/* 获取 数字 的 值 * / 


/* 检测 赋值 符号 * / 


/* 不 能 识别 的 符号 * / 


/* 检测 小 于 或 小 于 等 于 符号 * / 


/* 检测 大 于 或 大 于 等 于 符号 * / 


sym= gtr; 
} 
} 
else 
{ 
sym =ssym[ ch]; /* 当 符号 不 满足 上 述 条 件 时 ,全 部 按照 单字 
符 符号 处 理 * / 
//getchdo; 
//richard 
if (sym != period) 
{ 
getchdo; 
} 
//end richard 


} 
} 
return 0; 
} 
/* 
* 生成 虚拟 机 代码 
* 
* x; instruction, f; 
* y: instruction. l; 
* z: instruction. a; 
*/ 
int gen(enum fet x,int y,int z ) 
{ 
if (cx >=cxmax) 
{ 
printf{("Program too long"); / * 程序 过 长 * / 
return —1; 
} 
code[ ex]. f=x; 
code[cx]. l=y; 
code[cx]. a=z; 
cx tt 5 
return 0; 
} 
/* 
* 测试 当前 符号 是 否 合法 
* 
在 某 一 部 分 (如 一 条 语句 ,一 个 表达 式 ) 将 要 结束 时 我 们 希望 下 一 个 符号 属于 某 集合 
(该 部 分 的 后 跟 符号 ) ,test 负责 这 项 检测 ,并 且 负 责 当 检测 不 通过 时 的 补救 措施 
程序 在 需要 检测 时 指定 当前 需要 的 符号 集合 和 补救 用 的 集合 (如 之 前 未 完成 部 分 的 后 跟 
符号 ) ,以 及 检测 不 通过 时 的 错误 号 


sl :我 们 需要 的 符号 
s2: 如 果 不 是 我 们 需要 的 , 则 需要 一 个 补救 用 的 集合 
n: 错 误 号 


Kk OR KK RR OK 
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*/ 
int test(bool * sl,bool* s2,int n) 
{ 
if (linset(sym,s1)) 
{ 
error(n); 
/* 当 检 测 不 通过 时 ,不 停 获 取 符号 ,直到 它 属 于 需要 的 集合 或 补救 的 集合 * / 
while ((!inset(sym,s1)) && ({inset(sym,s2))) 
{ 
getsymdo; 
} 
} 


return 0; 


编译 程序 主体 


tx: 名 字 表 当前 尾 指针 
fsys: 当 前 模块 后 跟 符 号 集合 
/ 


int block(int lev,int tx,bool * fsys) 


* lev: 当 前 分 程序 所 在 层 


int is 

int dx; / * 名 字 分 配 到 的 相对 地 址 * / 

int tx0; /* 保留 初始 txx / 

int cx0; / * 保留 初 始 cxx / 

bool nxtlev[symnum]; /* 在 下 级 函数 的 参数 中 ,符号 集合 均 为 值 参 ， 
但 由 于 使 用 数组 实现 ,传递 进来 的 是 指针 ， 
为 防止 下 级 函数 改变 上 级 函数 的 集合 , 开 
辟 新 的 空间 传递 给 下 级 函数 * / 

dx=3; 

tx0= tx; /* 记录 本 层 名 字 的 初始 位 置 * / 

table[ tx]. adr=cx; 

gendo(jmp,0,0); 

if (lev > levmax) 

{ 

error(32); 
} 
do { 
if (sym==constsym) /* 收 到 常量 声明 符号 ,开始 处 理 常量 声明 x / 
{ 
getsymdo; 
do { 


constdeclarationdo( &-tx, lev, &dx); /* dx 的 值 会 被 constdeclaration 改变 ,使 用 
指针 * / 
while (sym 一 一 comma) 
{ 
getsymdo; 
constdeclarationdo( & tx, lev, & dx) ; 


} 


if (sym==semicolon) 
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{ 
getsymdo; 
} 
else 
{ 
error(5); /* 漏 掉 了 逗号 或 者 分 号 * / 
} 
} while (sym= =ident); 
} 
if (sym==varsym) /* 收 到 变量 声明 符号 ,开始 处 理 变量 声明 / 
{ 
getsymdo; 
do { 
vardeclarationdo( & tx, lev, &-dx) ; 
while (sym= =comma) 
{ 
getsymdo; 
vardeclarationdo( &-tx, lev, &-dx) ; 
} 
if (sym==semicolon) 
{ 
getsymdo; 
} 
else 
{ 
error(5) 5 
} 
} while (sym= = ident) ; 
} 
while (sym= = procsym) /* 收 到 过 程 声明 符号 ,开始 处 理 过 程 声明 * / 
{ 
getsymdo; 
if (sym==ident) 
{ 
enter( procedur, &-tx, lev, & dx) ; /* 记录 过 程 名 字 * / 


getsymdo; 


else 
{ 
error(4); / * procedure 后 应 为 标识 符 * / 
} 
if (sym==semicolon) 
{ 
getsymdo; 
} 
else 
{ 
error(5); /* 漏 掉 了 分 号 * / 
} 
memcpy(nxtlev, fsys,sizeof( bool) * symnum) ; 
nxtlev[ semicolon]= trues 


if (—1==block(lev+1,tx,nxtlev)) 
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{ 
return — l; /* 递 归 调 用 */ 
} 
if(sym= = semicolon) 
{ 
getsymdo; 
memcpy(nxtlev, statbegsys, sizeof(bool) * symnum); 
nxtlev[ident]= true; 
nxtlev[ procsym ]= true; 
testdo(nxtlev, fsys,6) ; 
} 
else 
{ 
error(5); /* WRT OS */ 
} 
} 
memcpy(nxtlev,statbegsys,sizeof(bool) * symnum) ; 
nxtlev[ident]= true; 
nxtlev[period]= true; 
testdo(nxtlev,declbegsys,7) ; 
} while (inset(sym,declbegsys)); /* 直到 没有 声明 符号 * / 


code[table[tx0]. adr]. a= cx; /* 开 始 生成 当前 过 程 代码 x* / 
table[ tx0]. adr= cx; /* 当前 过 程 代码 地 址 * / 
table[tx0]. size=dxs /* 声 明 部 分 中 每 增加 一 条 声明 都 会 给 dx 增加 1, 声 明 部 分 
已 经 结束 ,dx 就 是 当前 过 程 数据 的 size * / 
cx0= cx; 
gendo(inte,0,dx); /* 生 成 分 配 内 存 代码 * / 
if (tableswitch) /* 输 出 名 字 表 */ 
{ 
printf("TABLE:\n); 
if (txO+1 > tx) 
{ 
print{("NULL\n”) ; 
} 
for (i=tx0+1; i<=txs i++) 


switch (table[ i]. kind) 
{ 
case constant: 
printf("%d const %s " ,i,table[i]. name); 
printf("val= % d\n" ,table[i]. val) ; 
fprintf(fas,"%d const %s ",i,table[i]. name) ; 
fprintf(fas, "val= % d\n" ,table[i]. val) ; 
break; 
case variable: 
printf("%d var%s ",i,tableLi]. name); 
printf{("lev= %d addr= % d\n" ,table[i]. level. table[i]. adr) ; 
fprintf(fas."%d var%s ",i,table[i]. name); 
fprintf(fas,"lev= %d addr= % d\n", table[i]. level, table[i]. adr) ; 
break; 
case procedur: 
printf("%d proc%s " ,i,table[i]. name); 
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/ 


} 


* 


printf("lev= %d addr= %d size= % d\n", table[i]. level, table[i]. adr, table[i]. 
size); 
fprintf(fas,"%d proc%s ",i,table[i]. name); 
fprintf(fas,"lev= %d addr= %d size= % d\n", table[i]. level, table[i]. adr, table 
[i]. size); 
break; 
} 
} 
printf{("\n") ; 
} 
/* 语 句 后 跟 符 号 为 分 号 或 end* / 
memcpy(nxtlev,fsys,sizeof(bool) * symnum); /* 每 个 后 跟 符号 集 和 都 包含 上 层 后 跟 符 号 
集合 ,以 便 补救 * / 
nxtlev[semicolon]= true; 
nxtlev[endsym]= true; 
statementdo(nxtlev, &-tx, lev) ; 


gendo(opr.0,0); /* 每 个 过 程 出 口 都 要 使 用 的 释放 数据 段 指令 / 
memset(nxtlev,0,sizeof(bool) * symnum) ; / * 分 程序 没有 补救 集合 * / 
testdo(fsys,nxtlev.8); /* 检测 后 跟 符 号 的 正确 性 * / 
listeode(cx0) 5 / * 输出 代码 / 

return 0; 


* 在 名 字 表 中 加 入 一 项 


* 


* 


*/ 


k: 名 字 种 类 const, var 或 procedure 

ptx: 名 字 表 尾 指针 的 指针 ,为 了 可 以 改变 名 字 表 尾 指针 的 值 
lev: 名 字 所 在 的 层次 ,以 后 所 有 的 lev 都 是 这 样 

pdx: dx 为 当前 应 分 配 的 变量 的 相对 地 址 ,分 配 后 要 增加 1 


void enter(enum object k,int * ptx,int lev,int * pdx) 


{ 


( * ptx) ++; 


strepy(table[( * ptx) ]. name; id) ; 


/* 全 局 变量 id 中 已 存 有 当前 名 字 的 名 字 * / 


table[ ( * ptx)]. kind=k; 


switch (k) 
{ 
case constant: /* 常量 名 字 */ 
if (num > amax) 
{ 
error(31); /* 数 越界 * / 
num=0; 


} 
table[( * ptx) ]. val= num; 
break; 
case variable: /* 变量 名 字 */ 
table[ ( * ptx)]. level= lev; 
table[ ( * ptx)]. adr=( * pdx); 
( * pdx) ++ ; 
break; 
case procedur: /* HBAS */ 
table[( * ptx) ]. level= lev; 
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break; 


~~ 


ae ae ee 


查找 名 字 的 位 置 
找到 则 返回 在 名 字 表 中 的 位 置 ,否则 返回 0 


idt: 要 查找 的 名 字 

tx: 当 前 名 字 表 尾 指针 
my 

int position(char * idt,int tx) 


{ 


* 


int i; 
strcpy(table[0]. name, idt) ; 
i=tx; 
while (stremp(table[i]. name,idt) !=0) 
{ 

i-- 
} 


return i; 


} 
/* 
* 常量 声明 处 理 
*/ 
int constdeclaration(int * ptx,int lev,int * pdx) 
{ 
if (sym= = ident) 
{ 
getsymdo; 
if (sym 一 一 eql| |sym= = becomes) 
{ 
if (sym==becomes) 
{ 
error(1); /* 把 一 写成 了 :一 */ 
} 
getsymdo; 
if (sym==number) 
{ 
enter(constant, ptx, lev, pdx) ; 
getsymdo; 
} 
else 
{ 
error(2); /* 常 量 说 明 一 后 应 是 数字 * / 
} 
} 
else 
{ 
error(3); /* 常量 说 明 标 识 后 应 是 二 * / 


error(4) 5 
} 
return 0; 
} 
/* 
* 变量 声明 处 理 
ef 
int vardeclaration(int * ptx,int lev,int * pdx) 
{ 
if (sym==ident) 
{ 
enter( variable, ptx,lev, pdx) ;// 填 写 名 字 表 
getsymdo; 
} 
else 
{ 
error(4); 
} 
return 0; 
} 
/* 
* 输出 目标 代码 清单 
*/ 
void listcode(int cx0) 
{ 
int i; 
if Clistswitch) 
{ 
for (i=cx0; i<cx; i++) 


{ 


/ * const 后 应 是 标识 * / 


/*var 后 应 是 标识 * / 


printf("%d %s %d %d\n",i,mnemonic[ code[i]. f],code[i]. 1, code[i]. a); 
fprintf(fa,"%d %s %d %d\n",i,mnemonic[ code[i]. {] ,code[i]. 1,code[i]. a); 


} 
} 
} 
/* 
* 语句 处 理 
*/ 


int statement(bool * fsys,int* ptx,int lev) 
{ 
int i,cxl ,cx2; 
bool nxtlev[symnum]; 
if (sym==ident) 
{ 
i=position(id, * ptx); 
if G==0) 
{ 
error(11); 
} 
else 


{ 


/ % 准备 按照 赋值 语句 处 理 * / 


/* 变量 未 找到 * / 
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if(table[i]. kind != variable) 


{ 


error(12); / * 赋值 语句 格式 错误 * / 
i=0; 
} 
else 
{ 
getsymdo; 
if(sym= = becomes) 
{ 
getsymdo; 
} 
else 
{ 
error(13); /* 没有 检测 到 赋值 符号 * / 
} 
memcpy(nxtlev, {sys, sizeof(bool) * symnum) ; 
expressiondo(nxtlev, ptx, lev) ; /* 处 理 赋值 符号 右 侧 表达 式 * / 
if(i ! 一 0) 
{ / * expression 将 执行 一 系列 指令 ,但 最 终结 
果 将 会 保存 在 栈 顶 ,执行 sto 命令 完成 赋 
值 */ 


} 


gendo(sto, lev-table[i]. level, table[i]. adr) ; 
} 


}//if G==0) 


} 
else 


{ 


if (sym==readsym) / * 准备 按照 read 语句 处 理 * / 


{ 


getsymdo; 
if (sym !=Iparen) 
{ 
error(34) 5 / * 格式 错误 ,应 是 左 括号 / 
else 
{ 
do { 
getsymdo; 
if (sym= = ident) 
{ 
i=position(id, * ptx);  /* 查找 要 读 的 变量 * / 
} 
else 
{ 
i=0; 
} 
if G==0) 
{ 
error(35)3 /*read() 中 应 是 声明 过 的 变量 名 / 
} 


else 
{ 
gendo(opr,0,16); /* 生 成 输入 指令 , 读 取 值 到 栈 顶 */ 
gendo(sto, lev-table[i]. level,table[i]. adr); / * 储存 到 变量 * / 
} 
getsymdo; 
} while (sym==comma) ; /一 条 read 语句 可 读 多 个 变量 * / 
} 
if(sym !=rparen) 
{ 


error(33) ; /* 格式 错误 ,应 是 右 括号 * / 
while (!inset(sym, fsys) ) /* 出 错 补救 ,直到 收 到 上 层 函 数 的 后 跟 符 号 * / 
{ 
getsymdo; 
} 
} 
else 
{ 
getsymdo; 
} 
} 
else 
{ 
if (sym= = writesym) /* 准备 按照 write 语句 处 理 ,与 read 类 似 */ 
{ 
getsymdo; 
if (sym= = lparen) 
{ 
do { 
getsymdo; 
memcpy(nxtlev, fsys,sizeof( bool) * symnum) ; 
nxtlev[rparen]= true; 
nxtlev[comma]=true; /* write 的 后 跟 符号 为 ) or, * / 
expressiondo(nxtlev,ptxslev); /* 调 用 表达 式 处 理 ,此 处 与 read 不 同 ， 
read 为 给 变量 赋值 * / 
gendo(opr,0,14); /* 生成 输出 指令 ,输出 栈 顶 的 值 * / 
} while (sym==comma) ; 
if (sym !=rparen) 
{ 
error(33); / * write() 中 应 为 完整 表达 式 * / 
} 
else 
{ 
getsymdo; 
} 
} 
gendo(opr,0,15); /= 输出 换行 * / 
} 
else 
{ 
if (sym==callsym) / * 准备 按照 call 语句 处 理 * / 


{ 
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getsymdo; 
if (sym !=ident) 
{ 
error(14); /* call 后 应 为 标识 符 * / 
} 
else 
{ 
i= position(id, * ptx); 
if (i==0) 
{ 
error(11); /* 过程 未 找到 * / 
} 
else 
{ 
if (table[i]. kind= = procedur) 
{ 
gendo(cal,lev-table[i]. level, table[i]. adr); /* 生 成 call 指令 * / 
} 


else 
{ 
error(15); /* call 后 标识 符 应 为 过 程 * / 
} 
} 
getsymdo; 
; 
} 
else 
{ 
if (sym==ifsym) /* 准备 按照 ff 语句 处 理 */ 
{ 
getsymdo; 


memcpy(nxtlev, {sys, sizeof(bool) * symnum) ; 

nxtlev[thensym]= true; 

nxtlev[ dosym]=trues /* 后 跟 符 号 为 then 或 do*/ 
conditiondo(nxtlev,ptx,lev);  / * 调用 条 件 处 理 (逻辑 运算 ) 函 数 */ 
if (sym= = thensym) 


{ 


getsymdo; 
} 
else 
{ 
error(16); / * > then * / 
} 
exl=cx; / * RAE HBTS SMH * / 
gendo(jpe+0+0)s /* 生 成 条 件 跳 转 指令 , 跳 转 地 址 暂 写 0* / 
statementdo(fsys,ptx,lev);  / * Ab ## then 后 的 语句 * / 
code[cxl].a 一 cx / * 经 statement do 处 理 后 ,cx 为 then 后 语句 执 
行 完 的 位 置 , 它 正 是 前 面 未 定 的 跳 转 地 
址 */ 


else 
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if (sym= = beginsym) / * 准备 按照 复合 语句 处 理 * / 


{ 


} 


getsymdo; 
memcpy(nxtlev, fsys, sizeof(bool) * symnum) ; 
nxtlev[ semicolon ]= trues 
nxtlev[endsym]= true; /* 后 跟 符 号 为 分 号 或 endx / 
/* 循环 调用 语句 处 理 函 数 ,直到 下 一 个 符 
号 不 是 语句 开始 符号 或 收 到 end */ 
statementdo(nxtlev, ptx, lev) ; 
while (inset(sym,statbegsys) | | sym 一 一 semicolon) 
{ 
if (sym==semicolon) 
{ 
getsymdo; 
} 
else 
{ 
error(10); / * 缺少 分 号 * / 
} 
statementdo(nxtlev, ptx, lev); 
} 
if(sym==endsym) 
{ 
getsymdo; 
} 
else 
{ 
error(17); /* 缺少 end 或 分 号 * / 
} 


else 


{ 


if (sym==whilesym) / * 准备 按照 while 语句 处 理 * / 
{ 
exl=cx; / © 保存 判断 条 件 操作 的 位 置 * / 
getsymdo; 
memepy(nxtlev, fsys,sizeof(bool) * symnum) ; 
nxtlevLdosym]=true; / * 后 跟 符 号 为 dox / 
conditiondo(nxtlev, ptx, lev) ; / * 调用 条 件 处 理 * / 


cx2 一 cx / © 保存 循环 体 的 结束 的 下 一 个 位 置 * / 
gendo(jpc,0,0); /* 生成 条 件 跳 转 ,但 跳出 循环 的 地 址 未 知 * / 
if (sym==dosym) 
{ 
getsymdo; 
} 
else 
{ 
error(18); / * GRID do */ 


} 
statementdo(fsys+ptx,lev); / * 循环 体 * / 
gendo(jmp,0.cxl); /* 回头 重新 判断 条 件 * / 
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code[cx2]. a=cxs /=* 反 填 跳 出 循环 的 地 址 ,与 计 类 似 */ 


else 
{ 
memset(nxtlev,0,sizeof(bool) * symnum); /* 语句 结束 无 补救 
集合 */ 
testdo(fsys,nxtlev,19); /* 检测 语句 结束 的 正确 性 * / 


return 0; 
} 
/x 
* 表达 式 处 理 
a 


int expression(bool * fsys,int * ptx,int lev) 


{ 


enum symbol addop; / * 用 于 保存 正 负 号 * / 
bool nxtlev[symnum]; 
if(sym= =plus||sym= =minus) /* 开头 的 正 负 号 ,此 时 当前 表达 式 被 看 作 一 个 正 的 
或 负 的 项 * / 
{ 
addop= sym; / * 保存 开头 的 正 负 号 * / 
getsymdo; 


memepy(nxtlev; fsys,sizeof( bool) * symnum) ; 
nxtlev[ plus ]=true; 
nxtlev[ minus ]= true; 
termdo(nxtlev, ptx, lev); /* 处 理 项 x*/ 
if (addop==minus) 
{ 
gendo(opr,0,1); /* 如 果 开头 为 负 号 ,生成 取 负 指令 * / 


} 
else / * 此 时 表达 式 被 看 作 项 的 加 减 * / 
{ 
memcpy(nxtlev,fsys,sizeof( bool) * symnum) ; 
nxtlev[plus]= true; 
nxtlev[minus]= true; 
termdo(nxtlev, ptx, lev) ; /= 处 理 项 */ 
} 
while (sym= =plus| | sym= = minus) 
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addop=sym; 

getsymdo; 

memepy(nxtlev, fsys,sizeof(bool) * symnum) ; 

nxtlev[ plus ]=true; 

nxtlev[ minus ]= true; 

termdo(nxtlev, ptx, lev) ; / * 处理 项 * / 
if (addop= = plus) 

{ 


gendo(opr,0,2); /* 生 成 加 法 指令 / 
} 
else 
{ 
gendo(opr,0,3); /* 生 成 减法 指令 * / 
} 
} 
return 0; 
/* 
* 项 处 理 
*/ 


int term(bool * fsys,int * ptx,int lev) 
{ 
enum symbol mulop; /* 用 于 保存 乘除 法 符号 * / 
bool nxtlev[symnum]; 
memepy(nxtlev, fsys, sizeof(bool) * symnum) ; 
nxtlev[ times ]= trues 
nxtlev[ slash ]= true; 


factordo(nxtlev, ptx, lev) ; /* 处 理 因 子 * / 
while(sym 一 一 times||sym 一 一 slash) 
{ 


mulop=sym; 
getsymdo; 
factordo(nxtlev, ptx; lev) ; 


if(mulop= = times) 
{ 
gendo(opr,0,4); /* 生成 乘法 指令 * / 
} 
else 
{ 
gendo(opr,0,5); /* 生 成 除法 指令 * / 
} 
} 
return 0; 
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/* 
* 因子 处 理 
*/ 
int factor(bool * fsys,int * ptx,int lev) 
{ 
int i; 


bool nxtlev[symnum]; 


testdo( facbegsys. fsys+24) ; /* 检测 因子 的 开始 符号 * / 
while(inset(sym, facbegsys) ) /=* 循 环 直到 不 是 因子 开始 符号 * / 
{ 
if(sym==ident) / * 因子 为 常量 或 变量 * / 
{ 
i=position(id, * ptx); /* 查找 名 字 */ 
if (i==0) 
{ 
error(11); / * 标识 符 未 声明 * / 
} 
else 


{ 
switch (table[i]. kind) 
{ 


case constant: /* 名字 为 常量 * / 
gendo(lit,0,table[i]. val); /* 直接 把 常量 的 值 信 栈 * / 
break; 
case variable; | * 名 字 为 变量 * / 
gendo(lod, lev-table[i]. level, table[i]. adr); / * 找到 变量 地 址 并 将 其 值 入 栈 * / 
break; 
case procedur: /* 名 字 为 过 程 * / 
error(21); /* 不 能 为 过 程 * / 
break; 
} 
} 
getsymdo; 
} 
else 
{ 
if(sym==number) /* 因子 为 数 * / 


{ 
if (num > amax) 
{ 
error(31); 
num=0; 
} 
gendo(lit,0,num) ; 
getsymdo; 
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else 
{ 
if (sym==lIparen) / * 因子 为 表达 式 * / 
{ 
getsymdo; 
memcpy(nxtlev, fsys,sizeof(bool) * symnum) ; 
nxtlev[ rparen]= trues 
expressiondo( nxtlev, ptx, lev) ; 
if (sym==rparen) 
{ 
getsymdo; 
} 
else 
{ 
error(22); /* 缺 少 右 括号 * / 


} 
testdo(fsys, facbegsys ,23); /* 因子 后 有 非法 符号 * / 


} 


return 0; 


/* 
* 条 件 处 理 
*/ 
int condition(bool * fsys,int* ptx,int lev) 
{ 
enum symbol relop; 
bool nxtlev[symnum]; 
if(sym= =oddsym) / * 准备 按照 odd 运算 处 理 * / 
{ 
getsymdo; 
expressiondo( fsys, ptx, lev) ; 
gendo(opr,0.6); /* ÆR odd 指令 */ 


else 
{ 
/* 逻辑 表达 式 处 理 * / 
memepy(nxtlev, fsys,sizeof(bool) * symnum) ; 
nxtlev[eql]= true; 
nxtlev[neq]= true; 
nxtlev[lss]= true; 


nxtlev[leq]= true; 
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nxtlev[gtr]= true; 

nxtlev[geq]= true; 

expressiondo(nxtlev, ptx, lev) ; 

if (sym!=eql 8.8. sym!=neq && sym!=Iss &-&- sym!=leq &-& sym!=gtr &&. sym! =geq) 
{ 


error(20) ; 
} 
else 
{ 
relop=sym; 
getsymdo; 
expressiondo(fsys, ptx, lev) ; 
switch (relop) 
{ 
case eql: 
gendo(opr,0,8); 
break; 
case neq: 
gendo(opr,0,9); 
break; 
case lss; 
gendo(opr,0,10); 
break; 
case geq: 
gendo(opr,0,11); 
break; 
case gtr: 
gendo(opr,0,12); 
break; 
case leq: 
gendo(opr,0,13); 
break; 


} 


return 0; 


/* 
* 解释 程序 
*/ 
void interpret() 
{ 
int p»b.ts /= 指令 指针 ,指令 基 址 , 栈 顶 指针 * / 
struct instruction i; /= 存放 当前 指令 * / 
int s[stacksize]; /x* 栈 */ 
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printf("start pl0\n") ; 
t=0; 

b=0; 

p=0; 
s[0]=s[1]=s[2]=0; 
do { 


i=code[p]; 
ptt; 
switch (i. f) 
{ 
case lit: 
s[t]=i. a; 
ttt; 
break; 
case opr: 


switch (i. a) 
{ 
case 0: 
t=b; 


/* 读 当前 指令 * / 


/* 将 a 的 值 取 到 栈 顶 * / 


/* 数 学 .逻辑 运算 * / 


p=s[t+2]; 
b=s[t+1]; 


break; 
case 1; 
s[t—1] 
break; 
case 2; 
=) 
s[t—1] 
break; 
case 3; 
=) 
s[t 一 ]] 
break; 
case 4: 
te=} 
s[t—1] 
break; 
case 5: 
eS 
s[t—1] 
break; 


case 6; 


s[t—1] 
break; 


case 8: 


=—s[t—1]; 


=s[t—1]+s[t]; 


=s[t—1]—s[t]s 


=s[t—1] * s(t]; 


=s[t—1]/s[t]; 


=s[t—1]%2; 
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=; 
s[t—1]=(s[t—1]==s[t); 
break; 
case 9; 
=j 
s[t—1]=(s[t—1] !=s[t]); 
break; 
case 10: 
=j 
s[t—1]=(s[t—1] < s[t); 
break; 
case 11; 
5 
s[t—1]=(s[t—-1] >=s[t]); 
break; 


case 12; 


co} 
s[t—1]=(s[t—1] > s[t)); 
break; 

case 13: 
bes 
s[t—1]=(s[t—1] <=s[t]); 
break; 

case 14; 
printf("%d",s[t—1]); 
fprintf(fa2,"%d",s[t—1]); 
t->; 
break; 

case 15: 
printf("\n"); 
fprintf(fa2,"\n"); 
break; 

case 16: 
print{("2"); 
fprintf(fa2,"2"); 
scanf("%d", &(s[t])); 
fprintf(fa2," % d\n" ,s[t]); 
tt; 
break; 


} 
break; 
case lod: /* 取 相对 当前 过 程 的 数据 基地 址 为 a 的 内 存 的 值 到 栈 顶 * / 
s[t]=s[base(i. 1l,s,b) 十 La]; 
tH; 
break; 
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case sto: /* 栈 顶 的 值 存 到 相对 当前 过 程 的 数据 基地 址 为 a 的 内 存 * / 


=g 
s[base(i. 1,s,b) +i. a]=s[t]; 
break; 

case cal; /* 调用 子 过 程 */ 
s[t]=base(i.l.s.b)s /将 父 过 程 基 地 址 入 栈 */ 
s[t+1]=b; /* 将 本 过 程 基地 址 入 栈 , 此 两 项 用 于 base 函数 * / 
s[t+2]=p; /* 将 当前 指令 指针 入 栈 * / 
b=t; / 改变 基地 址 指针 值 为 新 过 程 的 基地 址 * / 
p=i.as /* 跳 转 */ 
break; 

case inte: / * 分配 内 存 */ 
thi, as 
break; 

case jmp: /< 直接 跳 转 * / 
p=i. a; 
break; 

case jpc: /* 条 件 跳 转 * / 
c=) 
if (s[t]==0) 
{ 

p=i. a; 
} 
break; 
} 
} while (p !=0); 


} 
/* 通 过 过 程 基 址 求 上 1 层 过 程 的 基 址 * / 
int base(int l,int * s,int b) 
{ 
int bl; 
bl=b; 
while (1 > 0) 
{ 
bl=s[b1]; 
b-i 
} 


return bl; 


/* PL/0 编译 系统 C 版 本 头 文件 pl0.h * / 


typedef enum { 


false, 

true 
} bool; 
# define norw 13 /* 关键 字 个 数 * / 
# define txmax 100 /* 名 字 表 容量 * / 
# define nmax 14 / * number 的 最 大 位 数 * / 
# define al 10 /* 符 号 的 最 大 长 度 */ 
# define amax 2047 /< 地 址 上 界 * / 
# define levmax 3 / * 最 大 允许 过 程 谋 套 声明 层 数 [0,levmax] * / 
# define cxmax 200 /* 最 多 的 虚拟 机 代码 数 * / 
/* 符号 * / 
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enum symbol { 


nul, ident, 
times, slash, 
lss, leq, 
rparen, comma, 
beginsym, endsym, 
writesym, readsym, 
varsym, procsym, 


ds 
# define symnum 32 
/* 名 字 表 中 的 类 型 * / 
enum object { 
constant, 
variable, 
procedur, 
ds 
/* 虚拟 机 代码 * / 
enum fet { 
lit, opr, 


# define fctnum 8 
/* 虚拟 机 代码 结构 * / 
struct instruction 
{ 

enum {ct f; 

int l; 

int a; 
up 
FILE * fas; 
FILE* fa; 
FILE* fal; 
FILE* fa2; 
bool listswitch; 
bool tableswitch; 
char ch; 
enum symbol sym; 
char id[al 十 1]; 
int num; 
int ccs ll; 
int cx; 
char line[81]; 
char a [al 十 1]; 
struct instruction code [cxmax]; 
char word [norw ][al]; 
enum symbol wsym[norw]; 
enum symbol ssym [256]; 
char mnemonic[ fetnum][5 ]; 
bool declbegsys[ symnum ]; 
bool statbegsys[symnum ]; 
bool facbegsys| symnum]; 
/* 名 字 表 结构 * / 


struct tablestruct 
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number, plus, minus, 
oddsym, eql, neq, 

gtr, geq, lparen, 
semicolon, period, becomes, 
ifsym, thensym, whilesym, 
dosym, callsym, constsym, 
lod, 

inte, 


/* 虚拟 机 代码 指令 * / 
/* 引 用 层 与 声明 层 的 层次 差 * / 
/* 根 据 f 的 不 同 而 不 同 */ 


/* 输 出 名 字 表 * / 

/* 输 出 虚拟 机 代码 * / 

/* 输 出 源 文件 及 其 各 行 对 应 的 首 地 址 * / 

/* 输 出 结果 * / 

/ * 显示 虚拟 机 代码 与 否 * / 

/* 显 示 名 字 表 与 否 * / 

/* 获取 字符 的 缓冲 区 ,getch 使 用 * / 

/* 当前 的 符号 * / 

/* 当前 ident, 多 出 的 一 个 字 节 用 于 存放 0* / 
/ * 当前 number * / 

/ * getch 使 用 的 计数 器 ,cc 表示 当前 字符 (ch) 的 位 置 * / 
/* 虚拟 机 代码 指针 , 取 值 范围 为 [0,cxmax 一 1]* / 
/* 读 取 行 缓冲 区 */ 

/* 临时 符号 ,多 出 的 一 个 字 节 用 于 存放 0*/ 
/=* 存 放 虚 拟 机 代码 的 数组 * / 

/=* 保 留 字 * / 

/= 保留 字 对 应 的 符号 值 * / 

/* 单 字符 的 符号 值 * / 

/= 虚拟 机 代码 指令 名 称 * / 

/=* 表 示 声 明 开 始 的 符号 集合 * / 

/=* 表 示 语 句 开始 的 符号 集合 * / 

/表示 因子 开始 的 符号 集合 */ 


char name [al]; /* 名 字 */ 


enum object kind; /= 类 型 : const、var、array 或 procedurex / 

int val; /= 数值 , 仅 const 使 用 * / 

int level; /= 所 处 层 , 仅 const 不 使 用 * / 

int adr; / * SBE. const 不 使 用 * / 

int size; /= 需要 分 配 的 数据 区 空间 , 仅 procedure 使 用 * / 
ds 
struct tablestruct table[ txmax]; /* BFR x / 
FILE * fin; 


FILE * fout; 
char fname[al]; 


int err; / * 错误 计数 器 * / 

/* 当 函 数 中 会 发 生 fatal error 时 ,返回 一 1 告知 调用 它 的 函数 ,最 终 退 出 程序 * / 

# define getsymdo if(—1==getsym()) return 一 1 

# define getchdo if(—1 etch()) return 一 1 

# define testdo(a,b,c) if(—1==test(a,b,c)) return 一 1 

# define gendo(a,b,c) if(—1 en(ayb,c)) return 一 1 

# define expressiondo(a,b,c) if(—1 expression(a,b,c)) return 一 1 
# define factordo(a,b,c) if(—1 actor(ayb,c)) return —1 

# define termdo(a,b,c) if(—1 term(a,b,c)) return 一 1 

# define conditiondo (a,b,c) if(—1 condition(a,b,c)) return 一 1 
# define statementdo(a,b,.c) if(—1 statement(a,b,c)) return —1 
# define constdeclarationdo(a,b,c) if(—1 constdeclaration(a,b,c)) return —1 


# define vardeclarationdo(a,b+c) if(—1 vardeclaration(a,b,c)) return —1 
void error(int n); 

int getsymQ 

int getchQ ; 

void init ; 

int gen(enum fct x,int y,int z); 

int test(bool * sl, bool * s2,int n); 

int inset(int e,bool * s); 

int addset( bool * sr, bool * s1, bool * s2,int n); 
int subset( bool * sr, bool * s1, bool * s2,int n); 
int mulset(bool * sr, bool * s1,bool * s2,int n); 
int block(int lev,int tx,bool * fsys); 

void interpret() ; 

int factor(bool * fsys,int * ptx,int lev); 

int term(bool * fsys,int * ptx,int lev); 

int condition(bool * fsys,int * ptx,int lev); 

int expression(bool * fsys,int * ptx,int lev); 

int statement(bool * fsys,int * ptx,int lev); 
void listcode(int cx0) ; 

int vardeclaration(int * ptx,int lev,int * pdx); 
int constdeclaration(int * ptx,int lev,int * pdx); 
int position(char * idt,int tx); 

void enter(enum object k,int * ptx,int lev,int * pdx); 
int baseCint l,int * s,int b); 
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